O uso de sinais fNIRS (near infrared spectroscopy funcional) para controle de interfaces cérebro-computador (BCI) em situações assistivas envolve a análise da atividade cerebral durante a execução de tarefas cognitivas. No contexto da dor aguda, é importante investigar como a presença de dor pode afetar a precisão dessas classificações. Para isso, diferentes abordagens de treinamento e teste de classificadores, como as redes neurais convolucionais (CNN), têm sido aplicadas. Neste contexto, foram exploradas quatro condições distintas de treinamento e teste, cada uma delas representando diferentes situações de dor e ausência dela, com o objetivo de entender melhor como esses fatores influenciam a performance de um BCI em tarefas cognitivas como subtração mental e contagem reversa.

O modelo tradicional de classificação com máquinas de vetores de suporte (SVM) exige uma meticulosa engenharia manual das características do sinal fNIRS pré-processado. Em contraste, as redes neurais convolucionais (CNN) oferecem uma abordagem alternativa, automatizando o aprendizado de características diretamente dos dados brutos. A CNN, originalmente desenvolvida para o reconhecimento de objetos na visão computacional, tem se mostrado eficaz também em outras áreas de classificação de sinais biomédicos, incluindo fNIRS. Uma das vantagens da CNN sobre modelos como o SVM é sua capacidade de aprender automaticamente representações complexas dos dados sem a necessidade de uma intervenção manual significativa.

A aplicação da CNN nesse tipo de sistema começou com a conversão dos sinais fNIRS unidimensionais em estruturas bidimensionais. Isso foi feito utilizando-se da transformada contínua de wavelet (CWT), uma técnica que transforma os dados temporais do fNIRS em imagens bidimensionais. Cada segmento de 1 segundo da gravação foi transformado em uma matriz 2D, com o eixo x representando o tempo e o eixo y representando as escalas de wavelet, resultando em uma estrutura rica em informações espectrais para ser alimentada na rede convolucional.

A arquitetura da CNN utilizada para essa classificação consistia de várias camadas de convolução, seguidas por camadas de pooling e uma camada densa. O uso de ReLU (Rectified Linear Unit) como função de ativação foi escolhido por sua eficiência computacional e por minimizar o risco de problemas como o desaparecimento do gradiente. A rede foi projetada para evitar o overfitting, especialmente devido ao pequeno tamanho do conjunto de dados. Para mitigar esse problema, foi empregada uma camada de dropout e uma técnica de segmentação de dados para aumentar a diversidade do conjunto de treinamento.

Para avaliar o impacto da dor na classificação das tarefas cognitivas, o modelo foi testado em quatro cenários distintos: 1) treinamento e teste sem dor; 2) treinamento sem dor e teste com dor; 3) treinamento e teste com dor; e 4) treinamento com dor e teste sem dor. Os resultados mostraram uma grande variação na precisão da classificação dependendo da condição de dor presente durante o treinamento e o teste. Nos casos em que a dor estava ausente durante o treinamento, mas presente durante o teste, a precisão da classificação foi significativamente reduzida, sugerindo que a dor pode alterar os padrões de atividade cerebral de forma que prejudique o desempenho do BCI. Este fenômeno foi mais pronunciado para o modelo SVM, que depende mais de características explícitas do sinal fNIRS.

Em contraste, a CNN mostrou uma capacidade superior de generalizar para novos dados, mesmo quando a dor estava presente. No entanto, os resultados indicam que a presença de dor durante o teste pode afetar negativamente a precisão da classificação, principalmente quando o BCI foi treinado em dados sem dor. Esse achado destaca a necessidade de considerar a dor como uma variável importante no design e no treinamento de BCIs, especialmente para sistemas assistivos onde a dor pode ser uma constante.

Além disso, ao utilizar a CNN, foi possível observar que a presença de dor afeta não apenas a magnitude dos sinais, mas também a forma como os dados são representados nas camadas convolucionais. Isso indica que a dor pode alterar características fundamentais da atividade cerebral, o que, por sua vez, interfere nos processos de aprendizado da rede neural.

Portanto, é essencial que futuros sistemas BCI baseados em fNIRS sejam treinados em uma variedade de condições, incluindo tanto a ausência quanto a presença de dor. Somente assim será possível garantir que o BCI funcione de maneira robusta em contextos reais, onde a dor pode ser um fator imprevisível. Além disso, a adoção de métodos como a segmentação de dados, o aumento de dados e o uso de arquiteturas mais profundas e complexas pode melhorar a capacidade de generalização do modelo, tornando-o mais adaptável a diferentes condições fisiológicas dos usuários.

Como a Presença da Dor Afeta a Precisão de Classificação em Sistemas BCI baseados em fNIRS?

A análise de desempenho dos classificadores SVM e CNN em sistemas BCI baseados em sinais fNIRS revela uma dependência crítica do contexto de aquisição dos dados, especialmente em relação à presença ou ausência de dor durante as fases de treinamento e aplicação do sistema. Esta variável, muitas vezes negligenciada, pode comprometer drasticamente a acurácia de classificação de tarefas neurais simples.

No cenário em que o classificador é treinado com dados obtidos na ausência de dor, mas testado com dados sob condição de dor aguda (cenário 2), observa-se uma queda significativa da acurácia para níveis próximos ao acaso. Isso indica que a dor altera substancialmente as assinaturas corticais captadas pelo fNIRS, tornando ineficaz um modelo treinado em condições não equivalentes. A modulação das atividades corticais induzida pela dor influencia os sinais de ΔHbO2 associados às tarefas motoras ou cognitivas analisadas, prejudicando o desempenho do sistema de interface cérebro-computador.

Por outro lado, quando o modelo é treinado e testado sob condições de dor semelhantes (cenário 3), o classificador SVM atinge sua máxima precisão de 89,91% ao utilizar como característica principal o valor máximo da parte real da Transformada Discreta de Fourier (DFT). Em contrapartida, a frequência correspondente à potência máxima resulta consistentemente na menor acurácia. A consistência contextual entre os estados de dor durante o treinamento e a aplicação se mostra, portanto, crucial para garantir um desempenho elevado do sistema.

No cenário inverso, em que o sistema é treinado sob dor e testado sem dor (cenário 4), o desempenho volta a cair para níveis de acurácia próximos ao acaso, independentemente da característica extraída. Essa assimetria reforça que a generalização entre contextos de dor e não-dor é falha, e que o sistema não pode inferir com precisão padrões corticais desconhecidos.

Em todos os cenários, o uso de dados provenientes de todos os 50 canais proporciona uma vantagem consistente na acurácia, comparado ao uso isolado de canais pré-frontais ou motores. A melhora obtida ao combinar dados de canais pré-frontais e motores varia entre 13% e 20% em relação ao uso exclusivo de canais pré-frontais, indicando que a distribuição espacial da atividade cortical, e não apenas sua localização isolada, é relevante para a robustez da classificação.

Ao comparar o desempenho dos classificadores SVM e CNN sob os mesmos cenários, verifica-se que o SVM, devido à sua estrutura mais simples, atinge uma acurácia levemente superior nos contextos avaliados, especialmente com datasets pequenos. Entretanto, a CNN demonstra curvas de aprendizado bem comportadas, tanto sob condições com dor quanto sem dor, estabilizando a acurácia de validação entre 78% e 80% após cerca de 250 épocas de treinamento. Não se observa overfitting nem underfitting, o que valida a eficácia do modelo mesmo com conjuntos de dados limitados.

A CNN, embora levemente inferior ao SVM em alguns casos, mantém desempenho suficientemente elevado para aplicações práticas, ultrapassando o limiar mínimo de 70% exigido para sistemas BCI binários funcionais. Os dados reforçam que, para ambos os classificadores, a acurácia é prejudicada quando se limita a análise aos canais pré-frontais (em torno de 65%), enquanto os canais motores mantêm desempenho aceitável (78% a 80%).

Além disso, é importante considerar que a escolha das características extraídas influencia significativamente o desempenho do sistema. Entre todas, o valor máximo da parte real da DFT se destaca como a mais eficaz, enquanto a frequência da potência máxima é sistematicamente ineficiente. Esse contraste sugere que as características que capturam a magnitude direta dos componentes espectrais têm maior capacidade discriminativa do que aquelas baseadas em localizações frequenciais absolutas da energia do sinal.

É fundamental compreender que a eficiência de um sistema BCI baseado em fNIRS não pode ser dissociada do estado fisiológico e emocional do usuário no momento da aquisição dos dados. A dor, ao alterar o padrão hemodinâmico cerebral, atua como um fator confusor que rompe a simetria esperada entre treinamento e aplicação. A suposição de que o modelo treinado em uma condição será automaticamente aplicável em outra revela-se, com base nos dados experimentais, equivocada.

Além disso, a composição espacial dos sinais analisados deve abranger uma área cortical ampla o suficiente para capturar as variações relevantes associadas tanto à tarefa quanto ao estado do indivíduo. Sistemas restritos a regiões isoladas, como o córtex pré-frontal, tendem a perder riqueza informacional necessária para classificações robustas.

A robustez do classificador também depende da harmonia entre o estado afetivo do usuário e o momento da coleta dos dados. Essa dependência exige, do ponto de vista do design de sistemas BCI, estratégias adaptativas capazes de detectar e compensar variações fisiológicas e emocionais, como a dor, de modo dinâmico. Modelos estáticos, treinados em contextos homogêneos, demonstram limitação crítica frente à variabilidade natural do estado humano.

Como Determinar a Medida de Distância Ideal e as Condições Iniciais no Agrupamento de Sinais Seismocardiográficos

O agrupamento de sinais seismocardiográficos (SCG) pode ser uma tarefa desafiadora, pois envolve uma série de variáveis e distorções temporais que precisam ser levadas em consideração para garantir resultados precisos. Ao se utilizar técnicas como K-means e K-medoid, um dos maiores desafios está na escolha adequada das condições iniciais e na definição da medida de distância entre as sequências, visto que essas abordagens podem se prender em mínimos locais durante o processo de convergência. A escolha do ponto de partida, ou seja, as condições iniciais, pode ter um impacto significativo nos resultados finais, pois o agrupamento pode convergir para soluções diferentes dependendo de como os objetos de início são escolhidos. Nesse sentido, testar várias condições iniciais e comparar os resultados de convergência é uma abordagem recomendada, como sugerem Gamage et al. (2018).

Uma das principais variáveis que deve ser considerada no agrupamento de SCG é a medida de distância entre as sequências. As distâncias são usadas para calcular a diferença entre dois sinais, considerando a invariância a certos tipos de distorções, como o deslocamento temporal. Distorções temporais podem ocorrer de duas formas: local e global. O deslocamento temporal local ocorre quando segmentos específicos de duas sequências não estão alinhados, embora apresentem grande semelhança. Já o deslocamento global, também chamado de deslocamento de fase, ocorre quando toda a sequência está deslocada em relação a outra. Essas distorções são comuns em sinais cardíacos, onde a variação do ritmo cardíaco pode afetar o alinhamento das ondas SCG.

No caso do deslocamento local, uma das medidas mais eficazes é a Dynamic Time Warping (DTW), que é uma técnica de alinhamento não linear local. O DTW permite a deformação das sequências no tempo, facilitando o alinhamento de segmentos semelhantes que podem estar esticados ou comprimidos de maneira não linear. Essa técnica é especialmente útil quando as sequências de SCG têm comprimentos diferentes, uma situação frequentemente observada devido à variação do ritmo cardíaco. Contudo, o uso do DTW exige maior custo computacional, o que precisa ser considerado em análises de grandes volumes de dados.

Embora a medida de distância Euclidiana seja mais simples, ela não consegue lidar adequadamente com deslocamentos temporais locais ou globais. No entanto, deslocamentos globais podem ser corrigidos utilizando a correlação cruzada, o que pode ser feito de maneira relativamente eficiente, sem o alto custo computacional do DTW. A correlação cruzada mede a similaridade entre duas sequências e pode ser usada para alinhar sequências globalmente, eliminando a defasagem temporal global. Após a correção da defasagem, a distância Euclidiana pode ser usada para medir a dissimilaridade entre as sequências alinhadas. No entanto, ao utilizar essa abordagem, é importante garantir que a busca pela máxima correlação cruzada seja limitada a uma janela de 50 amostras para evitar deslocamentos globais irreais e otimizar o tempo computacional.

A escolha das condições iniciais também é fundamental para a eficácia do agrupamento. O algoritmo k-medoid, que é utilizado neste estudo, inicia o processo de agrupamento a partir da atribuição de eventos SCG a diferentes clusters. Existem diferentes formas de definir essas condições iniciais, que podem ser feitas aleatoriamente ou com base em critérios fisiológicos. No caso do SCG, sabe-se que os eventos tendem a se agrupar de acordo com as fases do ciclo respiratório, o que implica que a escolha de condições iniciais baseadas em parâmetros respiratórios, como o volume pulmonar (LV) ou o fluxo aéreo (FL), pode levar a um agrupamento mais rápido e preciso. Essa abordagem é validada por estudos anteriores, como Gamage et al. (2020), que demonstraram que o uso de tais parâmetros pode melhorar a qualidade do agrupamento.

O processo de agrupamento k-medoid segue uma série de etapas. Primeiramente, os medóides são inicializados de acordo com as condições iniciais (LV ou FL). Em seguida, o algoritmo calcula a distância entre cada batimento SCG e os medóides definidos, atribuindo o batimento ao medóide mais próximo. A medida de distância pode ser o DTW ou a distância baseada na correlação cruzada com a Euclidiana (Ecorr). Uma vez que os batimentos sejam atribuídos aos clusters, os medóides são recalculados e o processo é repetido até que o agrupamento converja para uma solução estável.

Além disso, ao comparar o DTW e a abordagem baseada em correlação cruzada e distância Euclidiana, é essencial notar que o DTW é mais adequado quando há variações significativas no ritmo cardíaco, pois pode lidar melhor com as distorções locais. Contudo, a combinação da correlação cruzada para ajuste global seguido da distância Euclidiana pode ser mais vantajosa em termos de eficiência computacional quando as variações de ritmo não são tão pronunciadas.

Ao utilizar o algoritmo k-medoid, é importante definir corretamente o número de clusters, que, no caso deste estudo, foi determinado a partir da análise do método do cotovelo e da média do valor da silhueta, indicando que dois clusters seriam os mais apropriados para este tipo de análise. Esse número de clusters tem uma base científica sólida, como mostrado nos trabalhos de Gamage (2020).

A aplicação dessas técnicas de clustering em sinais SCG pode ser fundamental para a análise detalhada de eventos cardíacos, ajudando na identificação de padrões e anomalias que, de outra forma, poderiam ser difíceis de detectar. No entanto, é importante que o pesquisador esteja ciente dos desafios envolvidos na escolha das condições iniciais e da medida de distância, uma vez que estas podem impactar significativamente os resultados. Assim, a combinação de medidas eficientes e adequadas de distâncias, como o DTW e a correlação cruzada, com a escolha criteriosa das condições iniciais, é crucial para garantir a precisão e eficiência do agrupamento de sinais SCG.

Como os Sistemas Multimodais Estão Redefinindo o Reconhecimento Emocional na Era da Inteligência Artificial

O reconhecimento de emoções humanas tem evoluído para além da interpretação facial ou vocal, incorporando uma abordagem verdadeiramente multimodal. Essa mudança tem sido impulsionada por avanços em redes neurais profundas, aprendizado de características e fusão de dados de diferentes canais sensoriais, como expressões faciais, voz, sinais fisiológicos (ECG, EEG, GSR), e até microgestos corporais tridimensionais. A integração desses múltiplos domínios oferece uma leitura mais acurada, robusta e contextualizada do estado emocional humano.

Estudos como os de Feng & Chen (2018) e Gong et al. (2015) demonstram a eficácia de técnicas como máquinas de Boltzmann restritas com inferência fuzzy e aprendizado esparso de múltiplos objetivos, capazes de captar nuances emocionais em ambientes de alta ambiguidade. Ao mesmo tempo, a modelagem com redes Bayesianas e filtros otimizados (Goldstein et al., 2014; Friedman et al., 1997) contribui para a estruturação probabilística dos dados emocionais em sistemas dinâmicos.

A combinação dessas abordagens tem se mostrado especialmente potente em sistemas voltados para aplicações em tempo real. Por exemplo, Liu et al. (2018) desenvolveram um sistema de reconhecimento emocional em tempo real a partir de sinais de EEG induzidos por filmes, demonstrando a capacidade de diferenciar emoções discretas a partir de padrões neuronais captados por eletrodos. A resposta neural ao estímulo audiovisual é correlacionada com estados afetivos específicos, processados com algoritmos especializados que incorporam memória de longo prazo (Huang et al., 2021).

No campo da saúde, os trabalhos de Goshvarpour et al. (2017) e Hsu et al. (2020) apontam o uso de sinais fisiológicos como ECG e GSR para detectar emoções com precisão notável. Isso tem implicações diretas em aplicações médicas, como monitoramento psicológico, diagnóstico de transtornos afetivos e até modulação de terapias baseadas em biofeedback. Os modelos são capazes de reconhecer padrões sutis nos dados cardíacos, associando variações do sistema nervoso autônomo (Hagemann et al., 2003) a estados emocionais discretos, como medo, alegria ou ansiedade.

As pesquisas também têm avançado na construção de bases de dados robustas e diversificadas, como DEAP (Koelstra et al., 2012), que possibilitam o treinamento de modelos em ambientes "in-the-wild", ou seja, mais próximos da complexidade do mundo real. Além disso, há um aumento no uso de redes adversariais generativas (GANs), como demonstrado por Hajarolasvadi et al. (2020), que não apenas reconhecem, mas também sintetizam expressões emocionais humanas com um nível de realismo surpreendente, abrindo caminho para agentes artificiais mais empáticos e reativos.

No contexto educacional e organizacional, a inteligência emocional computacional é explorada em ambientes de e-learning (Imani & Montazer, 2019) e liderança transformacional (Hajncl & Vučenović, 2020), onde a capacidade de detectar engajamento, frustração ou motivação em tempo real permite uma adaptação imediata de conteúdo e estratégia de interação. Sistemas baseados em microgestos e gestos corporais 3D (Khenkar & Jarraya, 2022) vêm sendo integrados com sensores de visão computacional para analisar níveis de engajamento, aumentando a sensibilidade do sistema a mudanças sutis no comportamento humano.

É crucial observar a relevância dos modelos de aprendizado multimodal, como aqueles baseados na integração CNN-RNN (Kollias & Zafeiriou, 2021), que tratam dados sequenciais e espaciais de forma combinada. Isso permite capturar tanto a estrutura visual da expressão facial quanto a sua progressão temporal, essencial para distinguir emoções com dinâmica complexa.

A crescente sofisticação desses sistemas levanta, entretanto, considerações éticas e epistemológicas. A confiabilidade dos dados, o viés algorítmico e a transparência dos modelos são questões centrais que devem ser endereçadas com seriedade. O reconhecimento emocional, quando mal calibrado ou interpretado fora de contexto, pode resultar em inferências erradas e decisões automatizadas com impactos significativos. Além disso, o uso de emoções humanas como dados manipuláveis exige uma redefinição dos limites entre a cognição artificial e a vivência subjetiva.

É importante compreender que a inteligência emocional artificial não se resume à detecção automatizada de emoções. Ela requer uma arquitetura que respeite a complexidade da experiência afetiva, sua ambivalência e plasticidade. A emoção não é apenas uma resposta fisiológica ou comportamental; ela é, sobretudo, um processo interpretativo e relacional. Portanto, os sistemas de reconhecimento emocional verdadeiramente eficazes serão aqueles que souberem modelar não apenas os sinais, mas os contextos nos quais esses sinais adquirem sentido.