A comunicação acústica aérea (AAC), que envolve a transmissão de dados através de ondas sonoras em vez de ondas eletromagnéticas, enfrenta desafios únicos em comparação com outros métodos de comunicação sem fio. Nos sistemas sem fio tradicionais, como os de rádio, os quadros de dados frequentemente incluem sequências predefinidas que ajudam na estimativa do canal. Isso facilita a compensação das distorções nos sinais portadores, reduzindo a taxa de erro de bits (BER). No entanto, essa compensação só é eficaz quando realizada dentro de um intervalo de tempo coerente, no qual a resposta do canal pode ser considerada relativamente constante. Ao aplicar esse conceito à AAC, surgem dois desafios principais. Primeiro, o tempo de coerência do canal é geralmente muito curto, limitado a alguns milissegundos, tornando o uso de sequências de treinamento longas inviável devido à baixa taxa de dados. Segundo, a compensação do canal frequentemente exige cálculos complexos em tempo real, o que é um grande desafio para dispositivos de Internet das Coisas (IoT), que possuem recursos limitados.
Uma série de medições foi realizada para avaliar parâmetros cruciais, como frequência, fase e amplitude, que são importantes para a modulação no contexto de AAC. O experimento foi conduzido utilizando um computador de mesa que gerava uma tonalidade pura de 20 kHz, amplificada por um amplificador de 20 W e transmitida através de um alto-falante de 10 polegadas. Um smartphone Samsung Galaxy S5, posicionado a 20 cm do alto-falante, gravou o sinal transmitido. A gravação foi feita com uma aplicação personalizada para Android, capturando dados PCM não processados. As medições ocorreram em um ambiente de escritório, onde o nível médio de ruído de fundo era de aproximadamente 44 dB, com picos ocasionais que superavam 76 dB devido a fontes de ruído ambientais, como conversas e batidas no teclado.
A análise dos dados mostrou que, apesar da presença de ruído de fundo e distúrbios causados pela interferência do ambiente, a frequência do sinal acústico permanecia relativamente estável. Isso sugere que a modulação baseada na frequência pode ser uma abordagem eficaz para a comunicação acústica. No entanto, quando a variação da amplitude foi analisada, observou-se uma flutuação considerável, o que torna a modulação por amplitude inadequada, devido à instabilidade que ela introduz. O envelope da amplitude variava de 1 a quase zero, o que não é ideal para a codificação do sinal. Além disso, ao analisar a fase do sinal, observou-se um aumento linear quase constante, com desvios de fase de até 10 radianos em um intervalo de 10 segundos. Esses desvios explicam por que a modulação baseada em fase é rara em sistemas de AAC, uma vez que exige uma sincronização precisa, algo desafiador em ambientes acústicos reais.
A instabilidade tanto na amplitude quanto na fase resulta de vários fatores. A interferência de fundo e a operação do controle automático de ganho (AGC) nas interfaces acústicas contribuem para essas flutuações. O AGC ajusta o ganho para evitar o corte do áudio em resposta a sons abruptos, como batidas ou ruídos altos, o que pode reduzir a intensidade de outros sinais. Esse fenômeno torna a modulação por amplitude uma opção inviável para a AAC. Em relação à fase, os desvios significativos podem ser atribuídos à presença de erros de frequência portadora (CFO) ou de erro de taxa de amostragem (SFO), que ocorrem devido à falta de alinhamento perfeito nas taxas de amostragem dos dispositivos. Embora esses erros possam ser corrigidos em sistemas de rádio por meio de técnicas de equalização de canal, a implementação dessas correções na comunicação acústica é inviável devido às limitações de recursos computacionais e de hardware.
Por esse motivo, técnicas de modulação por frequência são frequentemente utilizadas na comunicação acústica aérea, pois são mais robustas a essas distorções. Uma técnica amplamente utilizada é a modulação por deslocamento de frequência (FSK, do inglês Frequency Shift Keying). A FSK é uma técnica de modulação digital que varia a frequência de uma onda portadora com base no sinal base. Em um sistema FSK, a frequência portadora é alternada entre dois valores distintos: um para representar o "1" binário e o outro para o "0" binário. Este método é amplamente utilizado em sistemas de comunicação sem fio, onde a variação de frequência é utilizada para transmitir informações digitais.
No entanto, mesmo a FSK apresenta desafios, como o vazamento de frequência, que ocorre quando há transições abruptas entre as frequências de portadora. Isso pode ser observado em análises espectrais, como o FFT, e pode ser mitigado com o uso de funções de janela, como a janela de Hanning. A estabilidade do sinal, tanto em termos de frequência quanto de amplitude, continua sendo uma das principais preocupações em sistemas de comunicação acústica, o que exige o desenvolvimento de técnicas mais refinadas para compensação de canal e modulação.
É importante destacar que, além das questões técnicas de modulação, a qualidade da comunicação acústica também depende da caracterização precisa do ambiente. Interferências ambientais, como ruídos de fundo e variações nas condições acústicas do local de transmissão, podem afetar significativamente o desempenho do sistema. A escolha de equipamentos, como microfones e alto-falantes, também desempenha um papel crucial na eficácia do sistema, pois dispositivos com diferentes características de sensibilidade e resposta em frequência podem introduzir distorções adicionais no sinal. Além disso, a comunicação acústica aérea apresenta um limite em termos de alcance, já que as ondas sonoras tendem a se dissipar rapidamente no ambiente, o que limita a distância de comunicação eficaz.
A implementação prática de sistemas de AAC, portanto, deve considerar uma combinação de técnicas robustas de modulação e compensação, bem como estratégias para mitigar os efeitos do ambiente acústico. Essas soluções são essenciais para garantir a viabilidade e a eficiência dos sistemas de comunicação acústica em uma variedade de aplicações, desde dispositivos de IoT até sistemas de comunicação em ambientes internos complexos.
Como funciona a modulação OFDM em sistemas de comunicação acústica?
A modulação por divisão de frequência ortogonal (OFDM) é uma técnica sofisticada que tem sido amplamente adotada em redes móveis de quarta (4G) e quinta geração (5G), graças à sua eficiência espectral e à capacidade de suportar altas taxas de transmissão de dados. No entanto, a aplicação direta dessa modulação em ambientes acústicos, como sistemas de comunicação por som, enfrenta desafios singulares: o tempo de coerência do canal é reduzido, a interferência por ruído de fase é significativa, e a variabilidade temporal da fase compromete a confiabilidade de técnicas convencionais de modulação em fase. Por isso, a OFDM é adaptada a tais condições através da combinação com modulações de amplitude, como o Amplitude Shift Keying (ASK).
O ponto de partida é o sinal em banda base , ao qual se aplica uma modulação ASK. Essa abordagem é escolhida porque, em canais acústicos, mesmo estáticos, a fase sofre variações temporais que tornam a demodulação baseada em fase pouco confiável. A modulação ASK, por depender exclusivamente da amplitude, apresenta maior robustez neste contexto. Para reforçar ainda mais a resiliência contra ruído, técnicas de codificação de canal podem ser aplicadas antes da modulação, inserindo redundância nos dados.
Uma vez modulado por ASK, o sinal é interpretado como um sinal no domínio da frequência . Para que o sinal resultante no tempo após a IFFT seja real, deve ser hermiticamente simétrico, ou seja, . Essa simetria transforma o sinal modulado ASK de banda lateral única (SSB) em um sinal de banda dupla (DSB), com espectro simétrico.
Considere um sistema acústico com frequência de amostragem de 48 kHz, utilizando uma faixa inaudível de 18 a 22 kHz. Com espaçamento de subportadora de 100 Hz, a resolução espectral é também de 100 Hz, resultando em 40 subportadoras disponíveis. Cada símbolo OFDM pode, assim, representar 40 bits. O número total de pontos na IFFT é 480, garantindo uma representação espectral detalhada.
Os bits são mapeados para amplitudes na faixa de frequências desejada — por exemplo, índices de 180 a 219 no espectro, correspondendo a 18–22 kHz. A versão espelhada dos símbolos modula os índices superiores para garantir a simetria hermítica. A operação final é a IFFT, que converte esse conteúdo de frequência em uma forma de onda no tempo, pronta para transmissão como sinal real.
Apesar das vantagens, a OFDM apresenta um problema crítico: a alta relação pico-média de potência (PAPR). Trata-se de um fenômeno onde poucos pontos do sinal apresentam amplitudes muito superiores à média. Em sinais acústicos, isso pode levar a vazamentos de frequência ou mesmo à geração de ruído audível, ainda que a modulação ocorra em bandas inaudíveis. Em sistemas de rádio, existem técnicas eficazes para mitigar o PAPR, mas sua complexidade torna-as impraticáveis para dispositivos acústicos simples, como sensores IoT. Soluções eficientes para o PAPR em domínios acústicos ainda são objeto de pesquisa.
Outro aspecto prático essencial é a utilização de prefixos cíclicos (cyclic prefix, CP). Na transmissão OFDM, um símbolo pode ser precedido pela repetição de seu trecho final. Esse artifício visa mitigar erros de sincronização, que são particularmente graves em sistemas acústicos. Quando o símbolo recebido está deslocado no tempo, o CP permite que a parte útil do sinal permaneça intacta dentro da janela de observação da demodulação. Assim, o conteúdo de amplitude dos símbolos é preservado, mesmo que haja defasagem de fase.
O CP torna-se ainda mais necessário diante da dificuldade de obter sincronização precisa em canais acústicos, especialmente em ambientes com reverberação e reflexões múltiplas. Na prática, sua presença garante uma margem de tolerância para desvios temporais, sem necessidade de sistemas de sincronização altamente complexos.
A despeito de sua eficiência espectral e capacidade de transportar grandes volumes de dados, a OFDM apresenta uma limitação fundamental: seu alcance eficaz é restrito a curtas distâncias, tipicamente de poucos centímetros. Isso se deve à vulnerabilidade das subportadoras à atenuação e aos efeitos de propagação. Para expandir esse alcance a metros, técnicas como Chirp Spread Spectrum (CSS) oferecem uma alternativa promissora, sendo naturalmente mais resistentes à atenuação e à interferência multipercurso.
A modulação OFDM, quando aplicada ao domínio acústico, exige uma adaptação cuidadosa de cada etapa — da modulação à alocação espectral, passando pela estruturação do espectro com simetria hermítica, adição de CPs e considerações práticas sobre potência de pico. Embora tecnicamente complexa, essa abordagem permite a construção de sistemas de comunicação acústica de alta taxa, capazes de operar em faixas inaudíveis, com aplicação em áreas emergentes como a comunicação máquina-máquina por som.
Para que o leitor compreenda plenamente os desafios e benefícios da modulação OFDM em comunicação acústica, é importante reconhecer a natureza altamente restritiva do canal acústico, comparado ao eletromagnético. A velocidade do som é baixa, a dispersão temporal é alta, e os efeitos de reverberação tornam a equalização extremamente complexa. Além disso, a largura de banda utilizável é limitada e altamente sujeita a ruídos do ambiente. Por isso, o projeto de sistemas OFDM acústicos deve considerar com precisão o alinhamento entre subportadoras, a inserção de redundância, a tolerância a erros de sincronização e os mecanismos de mitigação de PAPR, que ainda carecem de soluções adequadas no domínio sonoro.
Como é possível localizar com precisão usando apenas sons e sem infraestrutura pesada?
A localização acústica tem se mostrado uma técnica promissora, especialmente em ambientes internos onde os sinais de rádio podem sofrer atenuação severa. A abordagem central consiste no uso de âncoras — dispositivos fixos que transmitem ou recebem sinais acústicos — para determinar a posição de alvos móveis, como dispositivos ou mesmo fontes passivas de som.
Quando as âncoras atuam como transmissores, os alvos apenas escutam. Isso reduz significativamente o consumo de energia dos dispositivos móveis, pois eles não precisam emitir sinais, apenas ativar seus microfones. Essa configuração é ideal para cenários de monitoramento passivo, como rastreamento de pessoas ou animais. No entanto, exige algoritmos de localização mais sofisticados, pois as transmissões precisam ser coordenadas e, muitas vezes, sincronizadas por um servidor central.
Em contrapartida, quando as âncoras operam como receptores e os alvos são os transmissores, a localização é feita com base na estimativa do ângulo de chegada (AoA) de múltiplas âncoras. Essa abordagem é conceitualmente mais simples, mas sua escalabilidade é limitada, principalmente quando há muitos alvos transmitindo simultaneamente. Ainda assim, é eficaz para aplicações onde o número de fontes é pequeno ou bem controlado.
Sistemas como o Active Bat, desenvolvido em 1997, estabeleceram os fundamentos dos esquemas com âncoras transmissoras sincronizadas. Utilizando pulsos ultrassônicos e transceptores de rádio, alcançou precisão de até 14 cm em 95% das leituras. Guoguo, por sua vez, utilizou pulsos gaussianos e sincronização via Zigbee, alcançando precisão centimétrica. Já o sistema ALPS combinou microfones e alto-falantes com sincronização Bluetooth, integrando localização simultânea e mapeamento acústico, o que reduziu a complexidade da implantação.
UPS+ avançou ainda mais ao eliminar a necessidade de sensores ultrassônicos nos dispositivos móveis, explorando a não-linearidade dos microfones para capturar sinais ultrassônicos inaudíveis. Isso não apenas removeu o problema da audibilidade, como também manteve precisão centimétrica.
Apesar da eficácia dos métodos sincronizados, a dependência de sincronização precisa entre âncoras representa um obstáculo em redes de larga escala. Os métodos assíncronos surgem como uma alternativa robusta, dispensando sincronização rígida. ARABIS, por exemplo, utiliza um esquema de dois sentidos para estimar tempos de chegada diferenciais (TDoA), enquanto AALTS aprimora esse método com técnicas robustas de detecção de início de sinal e modulação pseudo-ortogonal, permitindo rastreamento preciso até mesmo com apenas quatro âncoras.
Outros sistemas abandonam completamente a ideia de transmissão coordenada, adotando âncoras passivas equipadas com arranjos de microfones. Elas estimam os ângulos de chegada dos sinais transmitidos pelos alvos e, a partir disso, determinam suas posições por meio de otimização por mínimos quadrados. O sistema proposto por Gabbrielli usa microfones dispostos em pentágonos para obter medições precisas de TDoA, com erros médios angulares de apenas 0.44°. RAILS amplia esse conceito para cenários maiores, mantendo precisão de 10 cm em ambientes amplos como galpões. Sistemas que aplicam algoritmos como MUSIC sobre sequências de Walsh-Hadamard também alcançam alta resolução angular, mesmo com frequências limitadas a bandas estreitas.
Entretanto, mesmo os sistemas mais avançados ainda enfrentam limitações. Em ambientes complexos, efeitos como multipercurso, heterogeneidade de hardware e variações na propagação acústica podem degradar significativamente o desempenho. Estratégias como supressão de ecos, uso de chirps exponenciais e modulações robustas são cruciais para mitigar tais desafios.
É importante compreender que a escolha entre métodos com ou sem sincronização, ativos ou passivos, está intimamente ligada ao contexto de aplicação. Ambientes com restrições de energia, necessidade de escalabilidade ou ausência de infraestrutura favorecem abordagens assíncronas e passivas. Já cenários controlados e com infraestrutura instalada podem tirar proveito da maior precisão dos métodos sincronizados e ativos.
Além disso, a robustez da estimativa depende não apenas dos algoritmos envolvidos, mas também da geometria dos arranjos de microfones, do tipo de sinal utilizado e da calibração do sistema. A precisão angular de um sistema pode ser excelente, mas se a distribuição espacial das âncoras for desfavorável, a precisão na posição será limitada. Modelos estatísticos e técnicas de fusão sensorial com WiFi, IMU ou outras fontes podem complementar e reforçar a confiabilidade do sistema.
Como os Artefatos de Movimento Afetam a Detecção de Sinais Vitais e Soluções Emergentes
Os artefatos de movimento podem introduzir deslocamentos que são não apenas imprevisíveis, mas também consideravelmente maiores do que os pequenos movimentos causados pelos sinais vitais. Esta disparidade frequentemente resulta em mudanças abruptas nos intervalos de alcance que correspondem ao indivíduo monitorado. Um impacto crítico disso é que a taxa de amostragem do sistema pode ser insuficiente para capturar adequadamente essas rápidas variações nos intervalos de alcance, que carregam as informações dos sinais vitais. Outro grande desafio está na dificuldade de identificar corretamente a reflexão do peito quando confrontada com a interferência de outras partes móveis do corpo, como mãos ou cabeça, tornando a detecção precisa quase impossível. Além disso, o conteúdo de frequência de certos artefatos de movimento, como o movimento do corpo modulado pelo tremor das pernas ou pela corrida na esteira, pode coincidir com a faixa de frequências dos sinais vitais, resultando em uma forte interferência. Somado a isso, a sobreposição espacial entre artefatos de movimento e sinais vitais torna inviáveis estratégias de filtragem espacial, como a formação de feixes (beamforming). Portanto, para garantir precisão, a maioria dos métodos propostos recorre simplesmente a descartar os períodos de tempo afetados pelos artefatos de movimento.
A natureza dispersiva do canal acústico pode dificultar ainda mais a identificação precisa do pico correspondente aos sinais vitais. Idealmente, o intervalo de alcance f2, como mostrado na figura 6.2b, deveria corresponder exclusivamente ao portador cuja fase é modulada pelos sinais vitais, desde que a resolução de alcance seja suficiente para resolver o deslocamento máximo causado por esses sinais. No entanto, na prática, os intervalos adjacentes a f2, seja à esquerda ou à direita, também podem conter sinais vitais dentro de suas fases, às vezes até com uma relação sinal-ruído superior. Esse fenômeno complica a abordagem para extrair o deslocamento causado pelos sinais vitais. Pode-se pensar intuitivamente que amostrar as fases de múltiplos intervalos adjacentes e, em seguida, aplicar uma análise de componentes principais (PCA) poderia resolver esse problema. No entanto, a eficácia desse método geralmente é limitada a cenários estáticos.
Os sinais vitais, nomeadamente a respiração e os batimentos cardíacos, também estão espacialmente colocalizados e, portanto, não podem ser separados utilizando técnicas espaciais, levando a uma interferência mútua. Um grande desafio surge da diferença substancial de amplitude entre esses dois sinais vitais. Detectar o sinal menor, o batimento cardíaco, requer uma sensibilidade suficientemente alta, talvez alcançada pela melhoria da resolução de alcance por meio de interpolação. No entanto, a sensibilidade aumentada torna o sistema mais suscetível à interferência. Quando a sensibilidade é alta, os erros de quantização resultantes das variações nos intervalos de alcance ao amostrar o sinal maior da respiração podem introduzir ruído na fase, obscurecendo os sinais fracos dos batimentos cardíacos. Por outro lado, se a sensibilidade for ajustada para baixo, o suficiente para capturar a respiração, mas não otimizada para o batimento cardíaco, há uma alta probabilidade de que o sinal do batimento cardíaco seja perdido. Pode-se sugerir que o aumento do número de amostras e a realização de uma transformada rápida de Fourier (FFT) de sequência longa poderia aumentar a sensibilidade ao batimento cardíaco, compensando assim a redução da sensibilidade. No entanto, essa abordagem só poderia fornecer informações estatísticas, como a taxa de batimento cardíaco, ao longo de um período de medição prolongado, e não seria eficaz na detecção rápida de padrões irregulares de batimento cardíaco.
Atualmente, a pesquisa em sensoriamento fisiológico acústico frequentemente se concentra na extração de informações estatísticas, como a taxa de batimento cardíaco ou a taxa de respiração, principalmente por meio de análise espectral e realizada em condições estáticas. A recuperação de formas de onda detalhadas, particularmente para o batimento cardíaco, em condições de canal adversas, como artefatos de movimento, permanece largamente inexplorada. No entanto, alguns esforços preliminares têm sido direcionados para alcançar um sensoriamento robusto a artefatos de movimento. Os princípios subjacentes dessas propostas iniciais são promissores e podem estimular novas pesquisas nesta área. Esses trabalhos podem ser amplamente classificados em duas categorias: métodos de processamento de sinais analíticos e soluções que utilizam técnicas de aprendizado profundo.
Os métodos de processamento de sinais analíticos aproveitam modelos interpretáveis para descrever bem a dinâmica do sinal. A eficácia desses métodos depende fortemente dos modelos elaborados. No trabalho de CORA, os pesquisadores aproveitam a diferença significativa de amplitude entre a respiração e os artefatos de movimento. Para explorar isso, empregam dois tipos de sinais: onda contínua modulada em frequência (FMCW) e espaço ortogonal no tempo-frequência (OTFS). O sinal OTFS é projetado para ser sensível apenas aos artefatos de movimento e insensível ao deslocamento causado pela respiração. Por outro lado, o sinal FMCW é configurado com alta sensibilidade para capturar a respiração, mas também registra uma interferência substancial dos artefatos de movimento, registrando um sinal composto. A lógica por trás dessa estratégia é explorar a suavidade inerente ao movimento humano. Isso permite que os sinais menos sensíveis, como os OTFS, recuperem eficazmente a forma de onda detalhada dos artefatos de movimento. Simultaneamente, essa configuração também pode suavizar as pequenas variações causadas pela respiração ao amostrar os artefatos de movimento. A forma de onda dos artefatos de movimento pode então ser usada para compensar o sinal FMCW, permitindo a separação do sinal respiratório por meio de um processo de subtração.
Técnicas baseadas em aprendizado profundo (DL), por outro lado, são frequentemente empregadas nas etapas subsequentes de um pipeline típico de processamento. As abordagens de DL, embora não explicáveis, demonstraram capacidades poderosas. O BreathListener, por exemplo, utiliza as capacidades de áudio de smartphones para estimar a forma detalhada de respiração em cenários de direção. O seu pipeline de processamento envolve a extração do padrão respiratório usando densidade espectral de energia, subtração de fundo e decomposição empírica de modo em conjunto com a transformação do padrão extraído para o espectro de Hilbert. Por fim, uma rede adversarial generativa é aplicada a esse espectro para reconstruir a forma de onda detalhada. O SpiroSonic, por outro lado, usa múltiplos tons puros para perceber um sinal combinado de movimento e respiração. Em seguida, técnicas de pós-processamento baseadas em redes neurais são empregadas para reduzir o impacto dos artefatos de movimento leves. Embora essas técnicas baseadas em aprendizado profundo demonstrem um desempenho notável, frequentemente exigem grandes quantidades de dados de treinamento, envolvem procedimentos de treinamento complexos e podem sofrer com problemas relacionados à generalização.
Como Usar o ESP32 como Cliente BLE: Conectando, Interagindo e Controlando Dispositivos
Como dominar a perspectiva e a medição para criar desenhos realistas e equilibrados
Como Superar os Desafios Complexos e Trabalhar Juntos, Mesmo com Inimigos?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский