Akustisk sensing er en teknikk som benytter lydsignaler for å hente informasjon om omgivelsene. Denne metoden er spesielt nyttig i applikasjoner der visuelle eller andre sensorer ikke kan brukes effektivt, for eksempel i mørke rom eller under vann. For å forstå hvordan slike systemer fungerer, er det nødvendig å ha en grundig forståelse av de grunnleggende byggesteinene i akustisk sensing, som omhandler både fysikk og signalbehandling.

Når man studerer akustisk sensing, starter man med en grunnleggende systemmodell. La x(t)x(t) være inngangssignalet (f.eks. et lydsignal sendt fra en kilde), og h(t,τ)h(t, \tau) være impulssvaret til kanalen. Utgangssignalet y(t)y(t) representerer lyden som mottas etter at den har passert gjennom kanalen. I et ideelt scenario, der både lydkilden og mottakeren er stasjonære, og det ikke er vesentlige endringer i miljøet, kan kanalen modelleres som en lineær tidsinvariant (LTI) kanal. Dette betyr at impulssvaret h(t,τ)h(t, \tau) bare avhenger av tidsforskjellen tτt - \tau.

I virkelige forhold, derimot, vil både kilden, mottakeren og eventuelle reflekterende objekter variere i posisjon over tid. Da vil kanalen bli modellert som en lineær tidsvariant (LTV) kanal, der impulssvaret ikke nødvendigvis er konstant, men i stedet vil være en funksjon av både tid og tidsforsinkelse mellom inngangs- og utgangssignalene. Den generelle formelen for utgangssignalet i et akustisk system er gitt ved:

y(t)=x(τ)h(t,τ)dτ+w(t)y(t) = \int_{ -\infty}^{\infty} x(\tau) h(t, \tau) d\tau + w(t)

hvor w(t)w(t) er støyen som oppstår i mottakeren, for eksempel bakgrunnsstøy. I diskrete tidsystemer kan denne formelen forenkles til en sum av produkter mellom inngangssignalet x[n]x[n], impulssvaret h[n]h[n], og støyen w(n)w(n):

y[n]=(xh)[n]+w(n)y[n] = (x * h)[n] + w(n)

I dette tilfellet beskriver h[n]h[n] det diskrete impulssvaret og LL representerer antall taps i et endelig impulssvar (FIR) system.

Et viktig aspekt ved akustisk sensing er deteksjon av signalstart, eller onset detection. Dette refererer til prosessen med å identifisere nøyaktig når et signifikant akustisk signal begynner. Onset detection er avgjørende for nøyaktig kommunikasjon og tidssensitive applikasjoner. For å utføre onset detection, deles inngangssignalet ofte opp i overlappende vinduer av faste lengder. Hver vindu behandles separat for å vurdere om et referansesignal er tilstede, og dette gjøres vanligvis ved krysskorrelasjon mellom det vinduede signalet og et kjent referansesignal.

Når referansesignalet er til stede, vil korrelasjonen mellom signalene ha en skarp topp, mens fraværet av referansesignalet vil resultere i at den maksimale korrelasjonsverdien ligger langt under en forhåndsdefinert terskel. Dette kan illustreres som en form for binær hypotese-testing, der vi sammenligner nullhypotesen (ingen signal) mot alternativhypotesen (signal til stede). Når signalet er til stede, er det en skarp topp i korrelasjonen som indikerer at onset er oppdaget.

Imidlertid er det flere utfordringer som kan påvirke nøyaktigheten av onset detection i virkelige systemer. Den første er enheter som har ulike forsterkninger, kjent som enhetsheterogenitet. Ulike mikrofoner og høyttalere har forskjellige responser, noe som kan gjøre at en enkel terskelmetode ikke fungerer på tvers av forskjellige enheter. En annen utfordring er nær-fjern-effekten, som beskriver et fenomen der signalet fra nærliggende kilder overgår signalet fra mer fjerne kilder på grunn av signalets demping over avstand. Dette gjør at korrelasjonstoppen ved nærhet kan bli for stor og lett overskride terskelen, mens avstanden mellom kilden og mottakeren øker, kan den samme korrelasjonen falle under terskelen.

En annen viktig faktor som forstyrrer pålitelig deteksjon er multipath-effekten, som skjer når mottakeren mottar flere kopier av signalet som er forsinket og dempet på grunn av refleksjoner fra vegger eller andre objekter. I slike situasjoner kan disse refleksjonene på en eller annen måte legge seg konstruktivt, og forårsake at den ikke-synlige signalen (NLoS) får høyere intensitet enn den direkte synslinjesignalen (LoS). Dette kan føre til feilaktig deteksjon av onset, fordi den største korrelasjonstoppen ikke nødvendigvis representerer startpunktet for det opprinnelige signalet.

Det er flere teknikker som kan benyttes for å håndtere disse problemene, som for eksempel adaptiv terskeldeteksjon, der terskelen justeres i sanntid for å tilpasse seg endringer i signalstyrke og støyforhold. En annen tilnærming er bruk av flere mikrofoner for å analysere signalet fra forskjellige retninger, noe som kan bidra til å redusere effekten av multipath og nær-fjern-problemer.

I tillegg til teknisk forståelse av disse fenomenene, er det viktig å ha kjennskap til hvordan signalbehandling kan tilpasses ulike brukstilfeller. For eksempel kan det være hensiktsmessig å bruke spesifikke algoritmer for onset detection i svært støyende omgivelser, eller i tilfeller hvor det er vanskelig å skille mellom ønsket signal og interferens. Dermed kan valget av metode og tilnærming variere avhengig av applikasjonen, enten det er i enkle systemer som bruker en enkelt mikrofon, eller i mer komplekse systemer med flere sensorer og avansert signalbehandling.

Hvordan bruke fasetiming for presis TOA- og TDOA-estimering i akustisk sanseinnhenting

For nøyaktig estimering av tidene for ankomst (TOA) og tidene for differanse i ankomst (TDOA) av akustiske signaler, er det avgjørende å forstå hvordan faseinformasjon kan brukes til å forbedre tidsoppløsningen og redusere feil. Tradisjonelle metoder som benytter tverrkorrigering for å bestemme signalstarten, er begrenset av prøvetaksingsintervallet til analog-til-digital-konverteren (ADC) i akustiske systemer. For eksempel, med en prøvetakningsfrekvens på 48 kHz, er tidsoppløsningen begrenset til omtrent 21 mikrosekunder. Dette gir en rekkefeil på rundt 7 mm ved en lydhastighet på 340 m/s, og det er derfor nødvendig å bruke mer presise metoder for å oppnå finere tidsgranularitet.

En måte å oppnå høyere presisjon på er å benytte fasetiming. Denne tilnærmingen utnytter faseinformasjonen i signalene, som kan være spesielt nyttig i systemer der sender og mottaker er plassert på samme enhet (for eksempel i enhet-frie systemer). Selv om fasetiming kan brukes i systemer med separate sender- og mottakerenheter, er slike systemer utsatt for feilkilder som bærerfrekvensforskyvninger (CFO) og prøvetakningsfrekvensforskyvninger (SFO), som kan påvirke nøyaktigheten.

Fasebaserte teknikker for presis tidsestimering

For å estimere tidsforskyvningen for reflekterte signaler kan faseinformasjon fra både rene tone-signaler og chirp-signaler benyttes. Ren tone-signaler er enkle å implementere, men de er følsomme for bakgrunnsstøy og multipath-effekter. Når disse signalene brukes i et koherent mottakeroppsett, kan fasen ekstraheres ved å multiplisere signalet med en sinus og en kosinus, og deretter bruke et lavpassfilter for å beregne den absolutte fasen. Faseendringer kan deretter bestemmes ved å trekke fra påfølgende faseverdier. Denne metoden gir høy tidsoppløsning, men dens nøyaktighet kan være begrenset av støy og interferens i miljøet.

Chirp-signaler, derimot, tilbyr et mer robust alternativ. Chirp-signaler, som endrer frekvens kontinuerlig over tid, kan gjennomgå en prosess kjent som chirp-miksing. I denne prosessen multipliseres det sendte signalet med den reflekterte versjonen, og resultatet behandles gjennom et lavpassfilter for å utvinne frekvensinformasjonen. Etter påfølgende diskret Fourier-transformasjon (DFT) kan tidsforskyvningen beregnes ut fra den dominerende frekvensen i signalet. Tidsoppløsningen er invers proporsjonal med signalets varighet, og derfor kan en høyere båndbredde på chirpen gi en finere tidsoppløsning. Dette gjør chirp-signaler til et ideelt valg for høy presisjon i tidsestimering.

Faseambiguitet og løsninger

En viktig utfordring med fasebasert timing er faseambiguitet, som oppstår når det er umulig å avgjøre den eksakte fasen til et periodisk signal på grunn av modulasjonseffekten (faseinformasjon er kjent kun modulo 2π). For å håndtere faseambiguitet, kan flere toner benyttes i systemet. Ved å bruke to ulike frekvenser f1 og f2, kan tidsforskjellen mellom signalene beregnes ved å bruke deres respektive faseforskjeller. Dette gir et mer presist estimat av tidsforskjellen, spesielt når frekvensene er valgt med små forskjeller for å sikre at "beat"-frekvensen er effektiv.

Ytterligere vurderinger

I praksis er det flere faktorer som kan påvirke nøyaktigheten til TOA- og TDOA-estimeringene. Feilkilder som Doppler-effekter, forsinkelser i signalbehandling, og usikkerheter knyttet til selve målesystemet kan føre til at tidsestimatene ikke er helt presise. Derfor er det viktig at systemer som benytter fasebasert timing også implementerer mekanismer for feilkorrigering og justering av CFO og SFO. For å minimere disse feilene, bør nøyaktig kalibrering av systemets frekvens og prøvetakningstakt utføres regelmessig.

I tillegg kan avanserte signalbehandlingsmetoder, som adaptive filtre og flere samtidige signalbehandlingskanaler, bidra til å redusere effekten av bakgrunnsstøy og multipath-effekter, og dermed forbedre nøyaktigheten av tidsmålingene ytterligere.

Hvordan håndtere bevegelsesartefakter i fysiologisk overvåkning?

Bevegelsesartefakter kan introdusere forskyvninger som ikke bare er uforutsigbare, men også betydelig større enn de små bevegelsene som skyldes vitale tegn. Denne forskjellen fører ofte til plutselige endringer i rekkevidde-binene som tilsvarer den overvåkede personen. En kritisk innvirkning er at systemets prøvetakingshastighet kan være utilstrekkelig til å fange disse raske variasjonene i rekkevidde-binene som bærer informasjon om vitale tegn. Et annet stort problem er vanskeligheten med å identifisere brystrefleksjonen korrekt når systemet konfronteres med forstyrrelser fra andre bevegelige kroppsdeler, som hender eller hodet, noe som gjør presis deteksjon nesten umulig. Videre kan frekvensinnholdet i enkelte bevegelsesartefakter, som kroppens bevegelser modulerte av risting av bena eller løping på tredemølle, sammenfalle med frekvensområdet for vitale tegn, noe som skaper alvorlige forstyrrelser. Et annet problem er det romlige overlappet mellom bevegelsesartefakter og vitale tegn, noe som gjør at romlige filtreringsstrategier som beamforming blir ubrukelige. For å sikre nøyaktighet har de fleste foreslåtte metodene tydd til å rett og slett forkaste de tidsperiodene som er påvirket av bevegelsesartefakter.

Den dispersive naturen til det akustiske kanalen kan ytterligere komplisere nøyaktig identifikasjon av toppen som tilsvarer vitale tegn. Ideelt sett burde rekkevidde-binet, som vist i Fig. 6.2b, unikt tilsvare bæreren hvis fase er modulert av vitale tegn, forutsatt at rekkeviddeoppløsningen er tilstrekkelig til å oppløse den maksimale forskyvningen forårsaket av disse tegnene. I praksis kan imidlertid binene ved siden av dette også inneholde vitale tegnsignaler i sine faser, noen ganger til og med med en bedre signal-til-støyforhold (SNR). Dette fenomenet kompliserer tilnærmingen for å trekke ut forskyvningen forårsaket av vitale tegn. En intuitiv tilnærming kan være å prøve å sampelere fasene fra flere tilstøtende bin og deretter anvende prinsipal komponentanalyse (PCA), men effektiviteten av denne metoden er vanligvis begrenset til statiske scenarier.

Vitale tegnsignaler, nemlig respirasjon og hjertefrekvens, er også plassert sammen i rommet og kan derfor ikke skilles ved hjelp av romlige teknikker, noe som fører til gjensidig interferens. En betydelig utfordring oppstår på grunn av den store forskjellen i amplitude mellom disse to vitale tegnene. Å oppdage det svakere signalet, hjertefrekvensen, krever en tilstrekkelig høy følsomhet, kanskje oppnådd ved å forbedre rekkeviddeoppløsningen gjennom interpolasjon. Imidlertid gjør økt følsomhet systemet mer utsatt for interferens. Når følsomheten er høy, kan kvantiseringsfeil som oppstår som følge av variasjonene i rekkevidde-binene mens man prøver å sampelere det større respirasjonssignalet, introdusere støy i fasen, noe som kan skjule de svake hjertefrekvenssignalene. På den annen side, hvis følsomheten er satt lavt, slik at den er tilstrekkelig til å fange respirasjon, men ikke optimalisert for hjertefrekvens, er det stor sannsynlighet for at hjertefrekvenssignalet går tapt. Man kan foreslå å øke antallet prøver og bruke en lang sekvens hurtig Fourier-transformasjon (FFT) for å forbedre følsomheten for hjertefrekvens, og dermed kompensere for redusert følsomhet. Denne tilnærmingen kan imidlertid bare gi statistisk informasjon, for eksempel hjertefrekvensen, over en lengre måleperiode, og vil ikke være effektiv for raskt å oppdage uregelmessige hjertefrekvenser.

Eksisterende metoder for fysiologisk overvåkning under utfordrende forhold har blitt utformet med hensyn til bevegelsesartefakter. Nåværende forskning på akustisk basert fysiologisk overvåkning fokuserer ofte på å trekke ut statistisk informasjon som hjertefrekvensrate eller respirasjonsrate, og bruker hovedsakelig spektral analyse under statiske forhold. Gjenoppretting av detaljerte bølgeformer, spesielt for hjertefrekvens, under ugunstige kanalforhold som bevegelsesartefakter, er fremdeles til en viss grad uutviklet. Imidlertid er noen foreløpige forsøk gjort for å oppnå bevegelsesrobust fysiologisk overvåkning, og de underliggende prinsippene kan potensielt stimulere videre forskning på dette området. Disse metodene kan grovt deles inn i to kategorier: analytiske signalbehandlingsmetoder og løsninger som benytter dyp læringsteknikk.

Analytiske signalbehandlingsmetoder benytter tolkbare modeller for å beskrive signalets dynamikk. Effektiviteten til disse metodene er sterkt avhengig av hvordan modellene er konstruert. Et eksempel på dette er CORA, der forskerne utnytter den store amplitudeforskjellen mellom respirasjon og bevegelsesartefakter. For å utnytte dette, benyttes to typer signaler, spesifikt frekvensmodulert kontinuerlig bølge (FMCW) og ortogonal tids-frekvens-rom (OTFS). OTFS-signalene er utformet for å være sensitive kun for bevegelsesartefakter, mens FMCW-signalene er designet for å være følsomme for respirasjon, men også registrerer betydelig interferens fra bevegelsesartefakter. Målet med denne tilnærmingen er å bruke signalenes iboende glatthet til å isolere respirasjonssignalet fra bevegelsesartefakter, og på den måten rekonstruere detaljerte bølgeformer for respirasjon. Denne tilnærmingen har vist seg å være robust mot multipath-interferens, men hjertesignalene er vanskeligere å hente ut på grunn av båndbreddebegrensninger.

Dyp læringsteknikker er derimot mer kompliserte, men har vist seg å ha kraftige evner. Teknologier som BreathListener bruker smartsphone-lyd for å estimere detaljerte respirasjonsbølger, mens SpiroSonic benytter flere rene toner for å fange et kombinert signal av bevegelse og respirasjon. Etterpå benyttes nevrale nettverk for å redusere påvirkningen av lette bevegelsesartefakter. Selv om disse teknikkene har vist betydelig ytelse, krever de store mengder treningsdata og kan ha problemer med generalisering.

Hvordan kan man måle og simulere individuelle HRTF-er uten et fullstendig akustisk laboratorium?

Måling av Head-Related Transfer Functions (HRTF) for en enkelt person innebærer vanligvis omfattende akustiske målinger i et ekkokammer. Høyttalere plasseres rundt testpersonen i alle relevante retninger, mens mikrofoner fanger impulssvar ved inngangen til øregangene. For å redusere antallet nødvendige høyttalere, plasseres de på en bue i ulike høyder og roteres for å dekke hele det horisontale planet. Dette krever spesialisert utstyr og nøye tilrettelagte måleoppsett. Deltakeren må ofte holde seg fullstendig i ro i lange perioder, noe som kan være fysisk krevende.

For å forkorte måletiden har man utviklet teknikker som Multiple Exponential Sweep Method (MESM), hvor eksitasjonssignaler overlappes i tid. Denne metoden krever svært presis timing for å unngå interferens mellom impulssvarene. En alternativ metode er den såkalte resiproke teknikken, hvor små høyttalere plasseres direkte i ørene, mens mikrofoner monteres rundt testpersonen. Dette reduserer måletiden betraktelig, men begrenses av at høyttalerne i øret ikke kan spille særlig høyt uten å skade hørselen, noe som igjen resulterer i lav signal-støy-ratio.

Nyere forskning har forsøkt å optimalisere måleprosessen ytterligere ved å gjøre den kontinuerlig, slik at lydkildene beveger seg i rommet i stedet for å spille fra faste posisjoner. Studier har vist at ved en rotasjonshastighet på omtrent 3,8 grader per sekund, merker ikke testpersonene forskjell sammenlignet med tradisjonell trinnvis måling. I andre tilnærminger instrueres testpersonen i å bevege hodet i bestemte retninger, mens bevegelsene registreres med et motion capture-system. Bevegelsesartefakter, som ofte oppstår ved lange måleperioder, kan reduseres ved hjelp av visuell tilbakemelding eller mekaniske støtteapparater for å stabilisere hodet.

Et annet paradigmeskifte i HRTF-måling er innføringen av metoder som tillater sparsom datainnsamling. I stedet for å måle impulssvar fra hundrevis av retninger, måler man fra et begrenset sett posisjoner, og fyller inn resten ved hjelp av numerisk modellering og interpolasjon. Eksempelvis har man vist at et individ kan bruke en smarttelefon til å registrere HRTF på et begrenset antall punkter i horisontalplanet. Disse dataene kombineres med modellering av lydens diffraksjon rundt hodet og telefonens interne bevegelsessensorer for å estimere eksakte posisjoner. Lineær interpolasjon kan da brukes for å estimere HRTF-er mellom de målte punktene, men dette fungerer kun tilfredsstillende når punktene er relativt tett plassert.

Bakre HRTF-er er notorisk vanskeligere å måle, ettersom det er fysisk utfordrende å plassere telefonen presist bak hodet. Feilmarginene øker dermed i disse regionene. For å imøtekomme disse utfordringene har nyere studier utviklet algoritmer som bruker maskinlæring til å rekonstruere hele det individuelle HRTF-bildet basert på begrenset input. Et eksempel er bruken av en betinget variabel autoencoder (CVAE), hvor man først trener modellen på åpne datasett med HRTF-er. Deretter kan en ny bruker gi