El modelo HAVOC permite descomponer y formalizar ataques sobre dispositivos controlados por voz (VCD/VPA) describiendo capacidades del adversario, fases de la cadena de ataque y objetivos finales. En Light Commands, Sugawara et al. explotan la sensibilidad fotoacústica y fotoeléctrica de micrófonos MEMS: la incidencia de luz modulada es interpretada por el transductor como señal acústica. Formalmente, el espacio de objetivos se restringe a .p :: = Alexa | Google | Portal | Siri y .pd :: = EchoDot3 | Home | PortalMini | iPad6 | …; el requisito de posición se expresa como .access :: = proximal, puesto que se exige línea de vista continua sobre la apertura del micrófono. El adversario no precisa conocimiento interno del VPA (escenario black-box: .¬ [[Eve]] D,X,f,w), pero sí la capacidad de reproducir y analizar respuestas del dispositivo objetivo para ajustar la transformación audio→luz.

La fase de weaponización comienza con la generación de un archivo de audio que contiene el comando deseado; dicho archivo se convierte en una señal de control para un driver láser que modula la intensidad en tiempo real según la forma de onda de la voz. Aunque la ejecución física es óptica, la abstracción de HAVOC conserva la noción de “audio weaponization”: la vectorización del comando vocal en un transporte alternativo (luz), manteniendo las propiedades temporales y espectrales necesarias para el reconocimiento por el VPA. El foothold inicial exige selección de un emplazamiento con línea de vista y tiempo suficiente para montar equipo óptico sin ser detectado; en objetivos móviles o frecuentemente reubicados la operación es más compleja. La explotación no requiere ajustes sustanciales entre dispositivos salvo la adaptación al wake-word; se reportan alcances de éxito superiores a 50 m y, en casos concretos, >110 m. La persistencia, aunque no descrita en detalle por los autores originales, deriva de la continuidad de la condición física (permanencia de la línea de vista) y puede complementarse con técnicas clásicas de persistencia en VCD (habilitación de skills maliciosos, infección lateral, etc.).

DolphinAttack, por Zhang et al., se apoya en la no linealidad del sistema microfónico para insertar comandos inaudibles en ultrasonido. El catálogo objetivo aquí se modela como .p :: = Siri | Google | SVoice | HiVoice | Cortana | Alexa y dispositivos concretos .pd :: = iPhone4s | Nexus7 | S6Edge | Honor7 | ThinkPadT440p | Echo | … El adversario diseña dos escenarios: uno de implantación fija (altavoz ultrasónico cercano al VCD) con .access :: = temporary, y otro portátil que exige proximidad extrema al objetivo (operador que se acerca físicamente). La weaponización utiliza transductores ultrasónicos para emitir patrones modulados que, por las propiedades no lineales del micrófono, se demodulan en la banda audible dentro del circuito analógico/digital del dispositivo objetivo. La fase de explotación depende críticamente de la distancia y del acoplamiento directo con el micrófono; la persistencia se limita al mantenimiento físico del transmisor o a la explotación secundaria tras obtenerse la capacidad de ejecutar comandos (instalación de payloads, persistencia por red, etc.).

Analizando ambos casos bajo HAVOC se observa una dualidad recurrente: la canalización del comando vocal a través de un vector físico alternativo (óptico o ultrasónico) y la dependencia de condiciones físicas concretas (línea de vista, proximidad, tiempo de exposición). La formalización permite comparar capacidades de Eve: desde .access hasta .pd y .p, y evaluar la factibilidad real del ataque según variables medibles (distancia, potencia óptica/ultrasónica, necesidad de ocultamiento). También queda patente la separación entre conseguir la capacidad de emitir comandos (objetivo inmediato de muchos ataques) y la capacidad de ejecutar/controlar persistentemente el dispositivo (.p), esta última requiriendo pasos adicionales de explotación y post-explotación.

Además, es importante comprender el carácter interdisciplinario de estos ataques: mitigaciones puramente lógico-cryptográficas (autenticación de comandos) son insuficientes cuando el vector de entrada físico traduce artefactos no previstos por el diseño; por ello, cualquier defensa eficaz debe combinar contramedidas en hardware (filtrado físico, diseños de micrófono resistentes a efectos fotoeléctricos y no lineales), algoritmos de detección en el dominio temporal/espectral, y medidas de entorno como control del acceso visual y físico. La evaluación de riesgos mediante modelos como HAVOC exige cuantificar tanto la probabilidad de que una condición física requerida se dé en el mundo real como el coste operacional para el adversario (equipo, tiempo, exposición), y priorizar mitigaciones que aumenten de forma desproporcionada ese coste.

¿Cómo se evalúan y comparan las redes neuronales para la detección de autoactivaciones?

El proceso de creación de un conjunto de datos de entrenamiento para un modelo de red neuronal es una tarea fundamental, y en la investigación presentada, se detalla un enfoque específico utilizado para entrenar una red neuronal gemela en la detección de autoactivaciones. Esta metodología involucra un cuidadoso procesamiento de muestras tanto grabadas como reproducidas, con el objetivo de optimizar el rendimiento del modelo en la detección de actividades maliciosas dentro de un sistema.

La fase de entrenamiento comienza con el procesamiento secuencial de muestras de audio benignas y maliciosas a través de la red neuronal, utilizando un criterio de optimización basado en la pérdida contrastiva (Contrastive Loss), definida matemáticamente de manera que la red minimice la distancia entre las muestras de la misma clase y las incremente entre muestras de clases diferentes. El cálculo de la distancia entre los vectores de características extraídas de las muestras es un componente clave de esta fase, permitiendo ajustar los pesos de la red a medida que avanza el entrenamiento.

Se utilizó un conjunto de datos de entrenamiento compuesto por 120 muestras benignas y 90 maliciosas, con un total de 210 muestras. Durante el entrenamiento, se emplearon técnicas como el optimizador Adam para la actualización de los parámetros de la red. Es importante mencionar que, aunque los resultados del entrenamiento son prometedores, la cantidad de muestras utilizadas (35 para la validación, incluyendo aumentos de datos) es relativamente pequeña, lo que podría implicar que la red sufra sobreajuste después de un número elevado de épocas.

Una vez completada la fase de entrenamiento, se realiza una validación de la red utilizando un conjunto de datos distinto, compuesto por 20 muestras benignas y 15 maliciosas. Los resultados obtenidos durante esta fase son consistentes, mostrando que la red es capaz de clasificar correctamente las muestras en la mayoría de los casos, con una tasa de precisión bastante alta. No obstante, un análisis más profundo revela que, aunque la precisión es generalmente alta, después de un número considerable de épocas, se observa una ligera disminución en la exactitud. Esto sugiere que el modelo podría estar empezando a sobreajustarse, lo cual es un problema común en redes neuronales entrenadas con conjuntos de datos limitados.

Un aspecto crucial del proceso de validación es la construcción de matrices de confusión para cada una de las instancias de entrenamiento. Estos resultados reflejan el desempeño del modelo en la detección de autoactivaciones, con una precisión media de alrededor del 97%. Sin embargo, algunos casos aún muestran ligeros errores de clasificación, como falsos negativos y falsos positivos, lo que podría ser un área de mejora en futuras investigaciones.

En cuanto a la comparación con métodos tradicionales de detección de anomalías, los resultados muestran que el enfoque propuesto con la red neuronal gemela supera en rendimiento a las técnicas convencionales. Se realizaron varias pruebas para comparar el rendimiento de la red con One-Class Support Vector Machine (OCSVM) y Isolation Forest (iForest), dos de los métodos más utilizados para la detección de anomalías. Los resultados de estas pruebas son reveladores, ya que el rendimiento de estos modelos convencionales fue significativamente inferior al de la red neuronal propuesta, especialmente cuando se utilizó un conjunto de datos reducido y características extraídas por una red convolucional.

El análisis de estas pruebas muestra que, aunque los modelos OCSVM y iForest lograron algunos avances en comparación con la detección de anomalías en bruto (sin preprocesamiento de características), la red convolucional utilizada en la investigación demostró una capacidad superior para extraer características significativas de las muestras de audio. Esta mejora se refleja en un aumento considerable de la exactitud balanceada (BA) y el índice F1, que mide la precisión de las clasificaciones tanto para las clases benignas como para las maliciosas.

Además de la mejora en las métricas de rendimiento, uno de los aspectos más destacados es el hecho de que el enfoque propuesto ha sido entrenado con un conjunto de datos muy pequeño, lo que indica que la red tiene un gran potencial para mejorar aún más a medida que se amplíen los conjuntos de datos disponibles. Este es un punto clave para la investigación futura, ya que la ampliación del conjunto de datos podría permitir que la red mantenga o incluso mejore su rendimiento. Además, la reducción del tamaño del modelo podría ser una dirección interesante para explorar, permitiendo que el sistema sea más eficiente en su implementación en entornos con recursos limitados.

Un aspecto importante que se debe considerar es que la combinación de redes neuronales profundas y técnicas de detección de anomalías permite una mejora significativa en la precisión de la detección, pero siempre existe el desafío de balancear entre la precisión y la complejidad computacional. La red neuronal propuesta no solo mejora la detección de autoactivaciones, sino que también abre un camino para futuras investigaciones en el campo de la seguridad cibernética.