Stemmestyrte enheter (VCDs) har i dag blitt utbredt i mange hjem og arbeidsplasser, men sikkerheten rundt disse enhetene står overfor betydelige utfordringer. Til tross for at kommersielle enheter ofte inkluderer grunnleggende sikkerhetstiltak som autentisering, kryptering av data under overføring og automatiske oppdateringer, er det stemmekanalen som utgjør et særlig sårbart punkt. Kommunikasjonen mellom bruker og enhet skjer i stor grad via stemmen, som er vanskelig å sikre på samme måte som tradisjonelle innloggingsmetoder.

Backend-autentisering med sterke passord og to-faktorautentisering er vanlig, og kommunikasjonen mellom enheten og serverne til tjenesteleverandøren krypteres som regel via TLS-protokoller for å beskytte data under overføring. Automatiske oppdateringer sørger for at sikkerhetshull lukkes kontinuerlig uten at brukeren må gripe inn, selv om dette ikke er like utbredt på alle enheter. Likevel er stemmeautentiseringen som skjer på selve enheten ofte svak. Systemer som forsøker å skille mellom ulike brukere, mangler ofte evnen til å tildele forskjellige tillatelser, og talebaserte PIN-koder, som brukes for sensitive handlinger, kan lett fanges opp av uvedkommende.

En annen sårbarhet er at mange enheter alltid lytter etter et «vekkeord». Selv om det ofte gis visuelle signaler når enheten aktiveres, kan utilsiktede aktiveringer føre til at private samtaler blir fanget opp og sendt til skyen. Bluetooth-tilkoblinger uten krav om PIN-kode, kombinert med muligheten til å initiere paring via stemmekommandoer, åpner også for angrep fra angripere som befinner seg i nærheten. Disse kan aktivere enheten, utføre kommandoer eller bruke den til å angripe andre stemmestyrte enheter i nærheten.

Den sentrale utfordringen er at stemmekanalen ikke er tilstrekkelig sikret mot forfalskede kommandoer. Angripere kan benytte seg av både syntetisk tale og opptak av ekte stemmer for å utføre uautoriserte handlinger. En grunnleggende sikkerhetsforutsetning må være at selvutstedte kommandoer blokkeres universelt, da disse med nødvendighet er ondsinnede. Behandlingen av andre syntetiske stemmekommandoer må derimot være mer nyansert og tilpasses brukerens behov. Enkelte brukere kan ønske å hviteliste enkelte pålitelige syntetiske stemmer, mens andre trenger en mer åpen tilgang for legitime formål.

For personer med funksjonsnedsettelser har syntetiske stemmer blitt en viktig teknologi for å kunne bruke stemmestyrte enheter. Studier viser at mennesker med blant annet Amyotrofisk Lateral Sklerose kan sende tekstmeldinger og kontrollere enheter ved hjelp av syntetisk tale, noe som øker deres livskvalitet betydelig. Samtidig krever dette at sikkerhetsløsningene tar høyde for denne bruken, slik at enheter både er tilgjengelige og trygge for disse brukerne. Det finnes allerede forskning og utvikling av grensesnitt som kombinerer hjerne-komputerteknologi med syntetisk tale for stemmestyring, noe som ytterligere understreker behovet for fleksible, men sikre, sikkerhetsmodeller.

En klassifisering av sikkerhetsnivåer kan bidra til å balansere brukervennlighet og beskyttelse. På det laveste nivået tillates alle syntetiske stemmekommandoer uten restriksjoner, noe som gir maksimal tilgjengelighet, men minimal sikkerhet. Et mellomnivå tillater syntetiske stemmekommandoer, men blokkerer selvutstedte kommandoer, noe som representerer en bedre balanse. Mer restriktive nivåer kan begrense bruken ytterligere for økt sikkerhet, men dette kan samtidig redusere tilgjengeligheten for visse brukere.

Det er også teknologier som prøver å bruke retningsbestemte lydsignaler for å avgjøre om en kommando kommer fra én eller flere retninger, som kan indikere om kommandoen er selvgenerert. Noen enheter, som Echo Dot, har flere mikrofoner som potensielt kan utnytte denne teknologien, men dette er ikke bekreftet i alle tilfeller.

Viktig er det at brukeren er bevisst på de innebygde svakhetene i stemmestyrte enheter, og at tiltak mot angrep ikke bare handler om teknologiske løsninger, men også om hvordan enhetene brukes i praksis. Personvern, særlig i forhold til konstant lytting og skybasert behandling av lyd, må vurderes nøye. Videre er det vesentlig å forstå at stemmeautentisering fortsatt ikke kan sammenlignes med passordsikkerhet eller biometrisk sikkerhet, og at det derfor kreves flere lag med beskyttelse for å oppnå trygge løsninger.

Hvordan kan vi forhindre selvaktivering i stemmekontrollerte enheter?

Moderne stemmekontrollerte enheter står overfor en betydelig utfordring: selvaktivering, hvor enhetene feilaktig tolker lyder som kommandoer uten at brukeren aktivt har bedt om det. For å møte dette har man utviklet en løsning som sender ikke bare den innspilte lyden, men også selve kommandoen til skyen for analyse. Kommandoer blir bare utført hvis de klassifiseres som ufarlige, noe som gir en effektiv kontrollmekanisme med svært lav forsinkelse, typisk mellom 0,25 og 0,60 sekunder, avhengig av systemets konfigurasjon. Denne metoden kan implementeres via en programvareoppdatering på eksisterende enheter, og én skybasert instans kan samtidig betjene flere enheter.

Løsningen retter seg spesifikt mot selvaktiveringsangrep, som er det laveste sikkerhetsnivået i vår taksonomi. Den beskytter ikke mot andre former for stemmeforfalskning, som liveness-deteksjon og automatisert talerverifisering tar sikte på å motvirke. Angrep som manipulerer dyp læringsmodeller ved hjelp av adversarielle eksempler, representerer fortsatt en svakhet. Slike metoder kan skape forstyrrelser som er visuelt usynlige i spektrumgrafene, men hørbare i lyd, og det finnes offentlige verktøy for å lage slike manipulasjoner. Likevel er det viktig at selvaktivering-angrep krever hørbare signaler, noe som begrenser angriperens muligheter betraktelig.

Adversarielle angrep over luft, der lyd manipuleres for å lure systemet i en realistisk miljø, møter i praksis på store utfordringer. Miljøstøy og lydforvrengninger reduserer effekten av manipulasjonen og gjør det vanskelig å lykkes uten omfattende tilpasninger. Derfor, selv om teoretisk mulig, krever slike angrep i virkeligheten mye mer innsats og er langt fra enkle å gjennomføre.

Etiske hensyn er også vektlagt i utviklingen og testingen av løsningen. Deltakere i studier ble grundig informert om formålet, deres rettigheter og hvordan data ble håndtert, inkludert muligheten til å trekke seg når som helst. Ingen lydopptak med deltakernes stemmer ble bevart etter testing, noe som ivaretar personvernet. Løsningen i seg selv behandler data uten å lagre eller dele det med uvedkommende, og samhandler kun med allerede eksisterende systemer som håndterer brukerens stemmekommandoer.

Selv når løsningen er skybasert, endrer den ikke datastrømmen til enheten, som styres av produsenten. Dette innebærer at personvern ikke svekkes, da det ikke samles inn eller prosesseres ekstra informasjon utover det som er nødvendig for talegjenkjenning.

Eksperimentelle tester viser at løsningen kan klassifisere kommandoer med gjennomsnittlig 97 % nøyaktighet, noe som gjør den pålitelig i å skille mellom ekte og selvutløste kommandoer. Den har vist seg å fungere godt på ulike typer enheter og under varierende miljøforhold, inkludert ulike brukere og fysisk plassering av enheten.

Det er viktig å forstå at denne typen sikkerhetsløsninger ikke er fullstendige i seg selv, men må sees som en del av et større økosystem av tiltak mot stemmebaserte angrep. Den største begrensningen ligger i at den ikke adresserer avanserte angrep som manipulerer modellen direkte eller mer sofistikerte former for stemmeforfalskning. Samtidig er det vesentlig at personvern og etikk ivaretas gjennom hele utviklingsprosessen, for å sikre tillit og aksept blant brukerne.

Løsningens åpenhet, med tilgjengelig kildekode og datasett, fremmer videre forskning og utvikling på området, noe som kan bidra til stadig bedre og mer robuste tiltak i fremtiden.