For å oppnå nøyaktige resultater i systemer for emosjonsgjenkjenning er det nødvendig å benytte flere fysiologiske signaler og avanserte teknikker for funn av funksjoner. Et effektivt system kan ha et betydelig potensial i å forbedre nøyaktigheten på tvers av flere modaliteter, og en slik metode benytter seg av en teknikk kalt hyper-forbedrede funksjoner, hvor opprinnelige fysiologiske signaler behandles for å trekke ut mer detaljerte og presise funksjoner.
I det beskrevne systemet for emosjonsgjenkjenning, er de fysiologiske funksjonene, som EEG, EMG, GSR, RES og ECG, først ekstraktert og bearbeidet for å skape en mer representativ mengde data. Denne prosessen begynner med at funksjoner fra hver modalitet, representert som Fi (fysiologiske mapper), blir først aggregert og deretter behandlet med en lineær transformasjon ϕ. Enhver fysiologisk signalgruppe får sine egne forbedrede funksjoner, kalt Em, som gjøres til en del av det totale datasettet. Den opprinnelige funksjonen Fi transformeres gjennom en lineær vekting for å oppnå rikere og mer informative funksjoner som bedre kan beskrive emosjonelle tilstander.
Hyper-forbedringsprosessen gjør at de opprinnelige fysiologiske funksjonene blir supplerende forbedret gjennom et spesielt sett av vekter og bias som er lært av systemet, noe som gir et mer detaljert bilde av de emosjonelle tilstandene til individet. Denne metoden benytter et multilags kunstig nevralt nettverk (ANN) som prosesserer de fysiologiske dataene, og utvikler mer forsterkede representasjoner av de opprinnelige funksjonene. Dette trinnet er viktig da de forbedrede funksjonene fungerer som innspill til den videre prosesseringen i nevrale nettverk, som til slutt fører til en nøyaktig klassifikasjon av emosjoner.
Den kontinuerlige forbedringen av funksjonene gjennom denne metoden, sammen med de fysiologiske signalene, gir et rikere sett med funksjoner som kan fange opp mer subtile mønstre i dataene. Etter å ha behandlet de fysiologiske dataene gjennom den hyper-forbedrede læringssystemet, oppnås en høyere grad av presisjon i emosjonsgjenkjenning, spesielt når de kombineres fra flere modaliteter. Den resulterende datarepresentasjonen kan deretter benyttes til å klassifisere emosjonelle tilstander langs dimensjonene av valens og aktivering (valence-arousal).
I eksperimentelle innstillinger, som for eksempel dataene fra DEAP og MAHNOB-HCI, ble de fysiologiske signalene prosessert ved hjelp av lavfrekvente filtre og ble deretter delt opp i 60 sekunders segmenter for analyse. Hver fysiologisk signalmodalitet ble behandlet individuelt for å trekke ut spesifikke funksjoner, for eksempel spektral densitet for EEG eller inter-beats intervall for ECG. Deretter ble disse funksjonene sendt gjennom den hyper-forbedrede læringssystemet, som forbedret deres informasjonsinnhold og muliggjorde en mer presis gjenkjenning av emosjonelle tilstander.
Ettersom emosjonsgjenkjenningssystemer tradisjonelt har vært avhengige av enkeltmodale signaler, kan de forvente nøyaktige resultater i systemer med flere modaliteter som kombinerer EEG, GSR, EMG, RES og ECG. Denne tilnærmingen gir systemene evnen til å analysere tverrfaglige signaler samtidig, noe som øker nøyaktigheten sammenlignet med tradisjonelle metoder som kun benytter én modalitet om gangen.
For å oppnå de beste resultatene i emosjonsgjenkjenning, er det derfor avgjørende å ikke bare benytte et enkelt fysiologisk signal, men å kombinere flere signaler for å bygge et mer robust og presist system. Når signalene fra flere modaliteter behandles sammen, som demonstrert i eksperimentene, kan systemet nå opp til 75,6 % nøyaktighet i aktiveringsklassifikasjonen og 73,3 % i valensklassifikasjonen.
Med denne hyper-forbedrede metoden blir ikke bare de grunnleggende funksjonene forbedret, men hele prosessen for emosjonsgjenkjenning skjer mer presist, med mulighet for videre optimalisering av funksjonene som tilføres det nevrale nettverket.
Det er viktig å forstå at mens enkelte systemer baserer seg på å bare bruke et signal, er de virkelig sterke resultatene for emosjonsgjenkjenning funnet i multimodale systemer. Ved å bruke ulike fysiologiske signaler samtidig, kan vi oppnå en langt høyere nøyaktighet i klassifiseringen, og dermed bedre forstå kompleksiteten i menneskelige emosjonelle tilstander. For å ytterligere forbedre nøyaktigheten er det nødvendig å fortsette å forbedre databehandlingsmetodene, justere parametrene for å tilpasse seg individuelle variasjoner, og utforske flere modaliteter og signaler som kan bidra til å utvide horisonten for emosjonsgjenkjenningsteknologier.
Hvordan hyper-forsterkede læringssystemer kan forbedre emosjonsgjenkjenning
Emosjonsgjenkjenning er et komplekst og tverrfaglig felt som benytter seg av ulike fysiologiske signaler for å forstå menneskelige følelser. Denne prosessen er viktig både for teknologi som samhandler med mennesker, og for mer presis medisinsk diagnostikk. I denne sammenhengen spiller forbedrede læringssystemer, som hyper-forsterkede funksjonslæringssystemer, en nøkkelrolle i å forbedre nøyaktigheten og påliteligheten av emosjonsgjenkjenning. Ved å bruke fysiologiske signaler som input, kan slike systemer generere mer informerte og effektive funksjoner for å identifisere emosjoner. Et eksempel på dette er evalueringen av DEAP og MAHNOB-HCI datasett, som viser tydelig hvordan systemet vårt skaper mer robuste resultater sammenlignet med tidligere metoder.
I vår tilnærming benyttes flere fysiske signaler som EEG, hjertefrekvensvariabilitet (HRV), og andre fysiologiske målinger for å analysere og klassifisere emosjoner. Når vi fjerner støy og artefakter fra dataene, kan vi trekke ut funksjoner som deretter brukes til å bygge et hybrid-neuro-multimodalt læringsnettverk. Dette nettverket er designet for å automatisk oppdatere vektene med forsterkningsnoder, som genererer mer informasjonrike funksjoner. Dette gjør det mulig å lære komplekse relasjoner mellom signalene og utforske viktigheten av de ulike modalitetene.
En interessant observasjon i våre eksperimenter er hvordan klassifiseringen på tvers av dimensjonene valens og opphisselse (valence-arousal) reagerer på antallet forbedringsnoder, N. Når N er smått, er ikke de høyeste relasjonene mellom funksjoner fullt ut utnyttet, men når N økes til et visst nivå, forbedres klassifiseringen betydelig. Imidlertid, når N overskrider en viss terskel, spesielt 5–8 noder, ser vi en nedgang i ytelsen på tross av flere noder, noe som antyder at en balanse er nødvendig.
I tillegg til disse teknologiske forbedringene, har vi sammenlignet våre resultater med tidligere arbeid, inkludert studier som Koelstra et al. (2012), Soleymani et al. (2017) og Zhang et al. (2020a). Resultatene våre, med DEAP- og MAHNOB-HCI-datasett, viser seg å være mer robuste, noe som tyder på at det er lettere å skille emosjoner i to klasser (positiv og negativ) enn i tre eller flere, noe som videre understøtter vår metode. Dette er spesielt viktig for systemer som skal brukes i sanntid, der beslutningstakingen må være både rask og nøyaktig.
Våre metoder har også vist seg å være spesielt effektive når det gjelder multimodal signalfusjon. Når flere signalmodaliteter som EEG, hjertefrekvens, og respirasjonsdata kombineres, gir dette en mer robust emosjonsgjenkjenning enn når man kun benytter en enkel modalitet. Dette er spesielt relevant i scenarier som involverer komplekse emosjonelle tilstander, hvor én enkelt signalmodalitet kanskje ikke er tilstrekkelig til å fange alle nyanser i menneskelig følelse.
Den nyeste forskningen på området, inkludert våre egne eksperimenter, viser at det er en tydelig trend i at større kompleksitet i læringssystemene – gjennom dypere nevrale nettverk og flere funksjonsnoder – kan bidra til mer presis emosjonsklassifisering. Men samtidig er det viktig å påpeke at en slik kompleksitet også medfører utfordringer knyttet til databehandling og lagring, spesielt når man arbeider med sanntidsapplikasjoner som krever rask respons.
Ved å integrere flere signalmodaliteter i én samlet læringsprosess, kan systemer oppnå høyere nøyaktighet i å tolke menneskelige følelser. Men som med all teknologi, er det viktig å være oppmerksom på begrensningene, for eksempel i form av støy i dataene, som kan forvrenge resultatene. Derfor er en grundig forbehandling av dataene avgjørende for å sikre pålitelighet i det endelige systemet.
Endelig viser våre sammenligninger av tidligere forskning at hyper-forsterkede funksjonslæringssystemer er i stand til å generere mer informerte funksjoner som forbedrer ytelsen i emosjonsgjenkjenning. Dette er en signifikant forbedring over tidligere metoder som har vært avhengige av enklere modeller og færre funksjoner. Ved å fortsette å utvikle disse systemene, kan vi forvente at emosjonsgjenkjenning blir mer presis og integrert i mange praktiske applikasjoner, fra helsevesen til kunstig intelligens i samhandling med mennesker.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский