Akustisk sensorik handlar om att använda ljudvågor för att extrahera information om omgivningen och de objekt som finns i den. Genom att modellera ljudens spridning, reflektioner och effekterna av den omgivande miljön kan vi fånga komplexa data, som är nödvändiga för att förstå och interagera med våra fysiska utrymmen på nya sätt. En grundläggande förståelse för hur ljudvågor interagerar med olika objekt och miljöer ger oss möjlighet att utveckla effektivare och mer precisa sensorer. I detta kapitel beskrivs de grundläggande byggblocken för akustisk sensorteknik och den roll dessa spelar i att förbättra våra digitala och tekniska upplevelser.
Akustisk sensorik börjar med en enkel modell där en ljudsignal x(t) skickas ut från en källa, och denna signal interagerar med omgivningen genom en kanal, vilket ger ett utfallssignal y(t). Om både källan och mottagaren är stationära och det inte sker några stora förändringar i miljön kan kanalen modelleras som en linjär tidsinvariant (LTI)-kanal. Här beskriver h(t, τ) kanalens impulsrespons, det vill säga hur ljudet sprids och reflekteras i systemet. En ideal kanal skulle vara fri från störningar, men i praktiken påverkas ljudet alltid av väggar, objekt och andra hinder, vilket leder till multipla reflektioner och ekoeffekter.
I en mer dynamisk miljö, där relativpositionerna mellan källan, mottagaren och omgivande reflekterande ytor varierar, blir kanalen istället tidsvariant (LTV). Här får vi ett mer komplext signalflöde där tidsfördröjningar och variationer av ljudets intensitet kan uppkomma beroende på avstånd och vinklar mellan ljudkälla och reflekterande ytor.
För att fånga dessa effekter använder vi sig ofta av diskreta system och digitala representationer av ljudvågorna, där x[n] och y[n] representerar de samplade versionerna av signalen. En sådan modell kan beskrivas genom en konvolution, vilket innebär att den utgående signalen är ett resultat av att sammanfoga (eller "konvolvera") den inkommande signalen med kanalens impulsrespons. I praktiken innebär detta att vi inte bara tar hänsyn till den direkta ljudvågen som når mottagaren, utan också till alla reflektioner och multipath-effekter som kan förändra signalen.
En central aspekt inom akustisk sensorik är onset detection, eller detektering av ljudhändelser. Detta innebär att identifiera de exakta tidpunkterna när en ljudsignal börjar eller när en specifik händelse inträffar, exempelvis när ett ljud skapas eller en ljudkälla aktiveras. Onset detection är särskilt viktig inom applikationer som kräver tidskänslig information, såsom kommunikation och positionering via ljudsignaler.
För att upptäcka ett ljudstart används ofta en teknik där den inkommande signalen delas upp i överlappande tidsfönster. I varje fönster analyseras om signalen innehåller en viss referenssignal, vilket görs genom att korrelera fönstrets data med en förutbestämd referenssignal. När en sådan signal är närvarande kommer korrelationsresultatet att uppvisa ett skarpt toppvärde, vilket gör det möjligt att bestämma tidpunkten då ljudet börjar.
Denna metod fungerar effektivt när det inte finns störande faktorer, men i praktiken påverkas detekteringen av flera faktorer, såsom enheter med olika egenskaper, närliggande ljudkällor eller multipath-effekter. Enheter har ofta olika mikrofonkänslighet och ljudutgångskraft, vilket gör att samma tröskelvärde inte alltid är lämpligt för alla enheter. Vidare innebär när-fjärr-effekten att ljudet från närmare källor dominerar över de längre avstånden, vilket gör att den förväntade korrelationstoppen från en avlägsen källa inte blir lika tydlig. Om signalen dessutom reflekteras på olika väggar och ytor kan den försvagas eller förvrängas på ett sätt som gör det svårare att korrekt detektera startpunkten för signalen.
Dessa problem förvärras ytterligare i miljöer med multipath-effekter, där ljudet inte bara reser direkt från källan till mottagaren, utan även reflekteras från flera olika ytor. Dessa multipla signaler kan ibland addera till varandra på ett sätt som gör att de reflekterade signalerna (NLoS-signaler) kan överträffa den direkta signalen (LoS-signal) i intensitet. Ett simpelt tröskelbaserat detektionssystem som enbart letar efter den största korrelationstoppen riskerar då att felaktigt identifiera en starttidspunkt för en händelse.
För att hantera dessa utmaningar behöver systemet ta hänsyn till olika miljöeffekter och justera detekteringsalgoritmerna för att undvika felaktiga påslag. Detta kan innebära användning av mer sofistikerade tekniker, som att kombinera flera sensorer eller att applicera filter för att kompensera för ekoeffekter och multipath-signaler.
Det är också viktigt att förstå att akustisk sensorik inte bara handlar om att fånga ljudsignaler, utan om att kunna tolka och analysera hur dessa ljudvågor interagerar med miljön. En grundläggande förståelse för hur ljud kan reflekteras, spridas och dämpas är avgörande för att utveckla sensorer som kan användas i komplexa och dynamiska miljöer. Detta ger också insikt i hur dessa system kan användas för olika tillämpningar, från att spåra objekt i ett rum till att förbättra ljudkommunikation i trånga utrymmen eller över stora avstånd.
Hur fasthålls noggrann tidsestimering med fasinformation i akustiska sensorer?
För att uppnå hög precision i tidsuppskattningar av signaler som tas emot av akustiska sensorer, är det avgörande att förstå de grundläggande byggstenarna i tidmätning, särskilt med användning av fasinformation. När det gäller tid-överförings (TOA) eller tid-differens-överföring (TDOA) är det ofta nödvändigt att ta hänsyn till signalens fasförändringar för att uppnå en finare tidsupplösning än vad som kan uppnås med traditionella korrelationsmetoder.
I systemen för envägs- och tvåvägs-tidsmätning är noggrant detekterande av signalens ankomst och avsändning avgörande. Vanligtvis används korskorrelation för att identifiera tidsstämplar, men detta har sina begränsningar. För system som opererar på höga samplingsfrekvenser, exempelvis 48 kHz, kan en sådan detektering ge en tidsupplösning på ungefär 2,1×10⁻⁵ sekunder, vilket motsvarar en noggrannhet på 7 mm när ljudets hastighet är 340 m/s. I praktiken ger denna metod dock ofta upphov till fel som kan vara mellan 40 och 60 mikrosekunder.
För att övervinna dessa begränsningar kan andra signalegenskaper utnyttjas, där fasinformation från både ren-ton och chirp-signaler är särskilt användbara. Fas-baserade tidsestimeringstekniker, särskilt i system där sändare och mottagare är placerade på samma enhet (enhetfri mätning), kan med fördel användas för att uppnå subprovs-upplösning, även om de inte är utan sina egna utmaningar.
Ren-ton och fasberäknad tidsmätning
En ren-tonsignal är en enkel periodisk signal där fasen kan extraheras med hjälp av en koherent mottagare. Denna mottagare duplicerar signalen och multiplicerar dessa kopior med en fasförskjutning för att extrahera in-phase (I) och quadrature-phase (Q) komponenter. Genom att använda en lågpassfilter kan den absoluta fasen beräknas och skillnaden i fas mellan på varandra följande prov kan användas för att bestämma tidsdifferensen. För en ren-tonsignal som oscil- lerar vid 20 kHz och samplas vid 48 kHz är det möjligt att uppnå en tidsupplösning som är mycket finare än de 2-3 provfel som uppstår i traditionell korrelationsdetektering.
Trots fördelarna har ren-tonmetoder sina nackdelar, särskilt vad gäller känslighet för bakgrundsbrus och multipath-effekter, vilket kan göra att signalen förlorar sin tydlighet och precision. Detta kräver ytterligare överväganden, till exempel att använda flerkanalsystem för att hantera brus och multipath.
Chirp-signaler och förbättrad upplösning
För att ytterligare förbättra tidsmätningen kan chirp-signaler användas. Chirp-signaler är linjära signaler vars frekvens ändras över tid. Genom att blanda den sända chirpsignalen med den reflekterade signalen och applicera en lågpassfilter, kan vi omvandla tidsinformation till frekvensinformation. Denna metod innebär att tidsdifferenser kan uppskattas genom att analysera frekvensen av den blandade signalen. Genom att använda en diskret Fouriertransform (DFT) för att identifiera toppfrekvensen kan tidsdifferensen beräknas med högre precision än vad som kan uppnås genom konventionella metoder.
För att uppnå ännu högre noggrannhet i mätningarna kan fasinformation från den blandade signalen användas. Eftersom en tidsdifferens på 10 mikrosekunder motsvarar en fasförändring på 0,18 radianer vid en startfrekvens på 18 kHz, är detta tillräckligt för att kunna detektera mycket små förändringar i tiden.
Fashantering och ambiguity
Ett av de största hindren för fasbaserade tidsmätningstekniker är fasambiguitet. Eftersom fasen endast är känd modulo 2π, finns en risk att den exakta fasen för en signal inte kan fastställas, vilket leder till osäkerheter i tidsmätningarna. För att hantera detta problem kan flera ton-signaler användas. Genom att mäta fasdifferensen för två signaler vid olika frekvenser kan man reducera ambiguiteten och noggrant uppskatta tidsdifferensen. Detta är särskilt effektivt när frekvensskillnaden mellan de två signalerna är liten, vilket möjliggör en effektiv "beat"-frekvens för att förbättra precisionen i tidsmätningarna.
I de system där både sändare och mottagare inte är samlokaliserade, såsom i enheter som använder flera sensorer eller distinkta kommunikationsnoder, kan även faktorer som bärfrekvensavvikelser (CFO) och samplingsfrekvensavvikelser (SFO) påverka noggrannheten. CFO och SFO kan orsaka drift i de uppskattade tidsmätningarna, vilket kan minska systemets pålitlighet. Dessa avvikelser kan dock minimeras genom noggrant kalibrering och genom att använda kompenseringstekniker som beskrivs i kapitel 4.
Det är också viktigt att förstå att fasbaserade metoder erbjuder en överlägsen tidsupplösning jämfört med konventionella metoder, men kräver ett noggrant hanterat system för att undvika problem med brus och multipath, och för att lösa eventuella fasambiguiteter som kan uppstå vid användning av ren-ton eller chirp-signaler.
Hur kan ljudbaserad spårning användas för att följa både små och stora objekt med hög precision?
Ljudbaserad spårning har blivit ett kraftfullt verktyg för att följa både passiva och aktiva objekt med imponerande noggrannhet, även i komplexa miljöer där multipath-interferens och andra störningar förekommer. Ett exempel på detta är MilliSonic-systemet, som uppnår en submillimeter noggrannhet för en-dimensionell spårning med hjälp av en enda beacon, även under förhållanden med multipath-effekter. Detta gör det möjligt att spåra flera enheter samtidigt genom att använda ett tidsdelat tillgångsschema (TDMA), vilket optimerar användningen av tillgängliga resurser.
En annan innovativ tillämpning är enheter som möjliggör spårning utan fysiska enheter, vilket innebär att passiva objekt kan följas genom de akustiska signaler de reflekterar. På grund av den avsevärda dämpningen av de reflekterade signalerna är sådan spårning vanligtvis begränsad till kortare avstånd, vilket ofta gör den användbar i applikationer som människa-dator-interaktioner. FingerIO-teknologin är ett exempel på hur mobiltelefoner och smartwatches kan användas som aktiva sonarer för att spåra fingerrörelser. Systemet, som har en median noggrannhet på 8 mm inom 5,92 ms, använder OFDM-modulerade signaler för att estimera kanalinformation (CSI) mellan handen och smartphone-enheten, och jämför på varandra följande kanalramar för att isolera rörelser från statiska multipath-reflektioner. Denna metod, som har visat sig vara effektiv för att extrahera finger-rörelseprofiler och robusta startdetekteringar, har inspirerat flera efterföljande forskningsarbeten.
För att ta spårningen ett steg vidare har forskare föreslagit fler avancerade system som LLAP (Low Latency Acoustic Positioning), vilket använder koherent detektion och flera tonbärare för att exakt lokalisera och spåra fingerrörelser. Detta system har rapporterat en noggrannhet på 3,5 mm för en-dimensionella rörelser och 4,57 mm för två-dimensionella ritningar, med en latens på mindre än 15 ms. LLAP, liksom FingerIO, är känsligt för störningar från andra enheter, vilket kan påverka dess effektivitet. För att lösa detta problem har Strata-teknologin introducerat en GSM-träningssekvens som är modulär med hjälp av binär fasmodulering (BPSK), vilket visat sig överträffa FingerIO och LLAP med en genomsnittlig noggrannhet på 3 mm.
För större kroppsdelares rörelser, såsom hela händer eller människokroppen, krävs mer kraftfulla högtalare och mer avancerade system. Forskning har visat att det är möjligt att uppnå rum-nivå spårning av handrörelser med hjälp av akustisk radar och tekniker som MIMO (Multiple Input Multiple Output) och djupinlärning för att förbättra signalens kvalitet. Sådana system kan ge en noggrannhet på mellan 1,2 och 3,7 cm inom ett räckvidd på upp till 4,5 meter.
CovertBand är ett annat system som bygger på aktiv sonar och använder ett förbättrat högtalarsystem för att spåra människor. Med hjälp av samma parametriska modell som FingerIO rapporteras en medel noggrannhet på 18 cm för spårning av rörliga objekt. För statiska objekt är noggrannheten 8 cm vid en räckvidd på upp till 8 meter under linjesiktförhållanden.
En sammanfattning av de olika spårningssystemen visar att både enhetsbaserad och enhetsfri akustisk spårning kan uppnå centimeter-noggrannhet tack vare den låga propageringshastigheten hos akustiska vågor i luft, vilket möjliggör exakta mätningar baserade på tidsfördröjning och Doppler-effekter. Beroende på användningsområdet har olika tekniker utvecklats för att spåra objekt med olika storlek och rörelsemönster, från små handhållna enheter till hela kroppens kinematik.
Trots dessa framsteg finns det flera begränsningar med nuvarande metoder. Högljudiga miljöer och störningar från andra ljudkällor kan kraftigt försämra spårningens noggrannhet. Dessutom kan det uppstå problem när flera akustiska system verkar inom samma område, vilket kan leda till interferens, överlappande sändningar eller identifieringsproblem. För att hantera dessa utmaningar behöver framtida forskning fokusera på robusta tekniker för att minska brus, anpassad signalbehandling och effektiva strategier för delning av mediet eller spektrum för att förbättra tillförlitligheten och skalbarheten hos akustiska spårningssystem.
Hur individanpassade HRTF-metoder påverkar ljudlokalisering och hörselhälsa
Simuleringen av huvudrelaterade överföringsfunktioner (HRTF) har länge varit ett centralt ämne inom akustisk forskning och ljudteknik, där en stor utmaning är att uppnå noggranna resultat utan att använda avancerad och ofta kostsam specialutrustning. HRTF, som är avgörande för att återskapa realistiska 3D-ljudupplevelser, påverkas av en mängd fysiologiska och beteendemässiga faktorer, däribland form och storlek på huvudet och öronen. Genom att ta hänsyn till dessa parametrar kan man skapa mer precisa och personligt anpassade ljudmodeller. Dock är metoder för individuell HRTF-estimering fortfarande under utveckling, och noggrannheten hos de flesta simulerade modeller tenderar att minska vid högre frekvenser, vilket gör det svårt att återskapa ljud med högre detaljer i hörselupplevelsen.
En av de mest framträdande metoderna för att anpassa HRTF till en individ är genom att använda antropometriska mått. Genom att mäta huvudets och örats fysiska egenskaper kan man skapa en initial HRTF som sedan justeras för att bättre passa den specifika individen. Forskning har visat att när dessa skalningsmetoder tillämpas på individuella data, förbättras lokaliseringsnoggrannheten för ljud signifikant, även om vissa metoder som förlitar sig på regresseringsanalyser fortfarande har begränsningar när det gäller att exakt förutsäga vertikala ljudvinklar.
En annan metod är närliggande grannval, där databaser med olika HRTF-profiler används för att hitta de mest liknande individerna baserat på morfologiska egenskaper. Här kan resultaten ytterligare förbättras genom att använda djupinlärning och neuralnätverk för att identifiera de mest lämpliga matchningarna mellan individer och de ljudprofiler som bäst motsvarar deras fysiska struktur. En liknande metod är anpassning baserad på perceptuella återkopplingar, där individens subjektiva bedömningar av ljudlokalisering används för att justera HRTF:er. Detta kan göras antingen genom att direkt välja den mest liknande HRTF från en databas eller genom att successivt anpassa ljudets frekvenser baserat på användarens feedback. Även om denna metod ger bra resultat, har den nackdelen att den kräver en omfattande kalibreringstid för att uppnå optimal anpassning.
I alla dessa metoder, från antropometriska till perceptuella feedbackbaserade tillvägagångssätt, kvarstår en gemensam utmaning: behovet av noggranna mått på de fysiska egenskaperna hos användaren. Det är ofta svårt att samla in sådana data, vilket kan leda till variationer i HRTF:ernas precision. Därför är det viktigt att inte bara ta hänsyn till de tekniska måtten utan också de psykologiska och fysiologiska anpassningarna som människans hörselsystem kan genomgå. Forskning har visat att människor har förmåga att anpassa sig till förändringar i sina HRTF:er genom träning. Sådan anpassning kan ske snabbt, inom några timmar, och kan upprätthållas under lång tid utan vidare exponering för de anpassade ljudsignalerna.
Utöver att förbättra ljudlokalisering är en annan viktig aspekt av hörselteknologi att skapa metoder för att upptäcka och hantera hörselskador. Hörselnedsättning påverkar ett stort antal människor världen över, och det finns en stark koppling mellan dålig hörselhälsa och nedsatt livskvalitet. Traditionellt har hörseltester krävt avancerad och dyr utrustning, men i takt med teknologins utveckling har det blivit möjligt att genomföra hörselundersökningar med hjälp av mer tillgängliga enheter som smartphones och bärbara apparater. Dessa alternativa metoder gör det enklare och billigare att screena för hörselproblem, vilket kan vara särskilt användbart i utvecklingsländer och mindre resurssatta miljöer.
I dagens samhälle, där akustiska upplevelser spelar en allt större roll i allt från underhållning till kommunikation och arbetsmiljöer, är det av stor vikt att vi utvecklar metoder för att skapa realistiska och individuellt anpassade ljudupplevelser. För personer med hörselnedsättning kan dessa teknologier bidra till att förbättra både deras förmåga att lokalisera ljud och den övergripande ljudupplevelsen, vilket ökar deras förmåga att interagera med världen omkring sig.
För att ytterligare förbättra de nuvarande metoderna bör det även forskas i hur vi kan kombinera de tekniska framstegen med mer flexibla och användarvänliga kalibreringsverktyg. Detta skulle kunna möjliggöra en mer exakt och effektiv individualisering av ljudupplevelser, även i vardagliga sammanhang där användaren inte har tillgång till specialiserad teknisk support.
Hur stabiliserade lasrar och sekundära metoder för att realisera meterdefinitionen används inom dimensionell metrologi
Hur kan maskininlärning effektivt användas för att optimera olika aspekter av samhälle och teknologi?
Hur Fraktionella Differentialekvationer Kan Användas för Att Modellera Kvantitativa Symmetriska Operatorer
Hur kan stadsplanering motverka predatory investors och uppmuntra hållbar utveckling i utsatta områden?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский