El uso de modelos de aprendizaje automático (ML) para predecir trastornos de salud mental ha cobrado gran relevancia en los últimos años, debido a la enorme cantidad de datos que las redes sociales generan constantemente. Sin embargo, uno de los desafíos más notables en este campo es la falta de atención a la intensidad de los textos publicados, especialmente en plataformas como Twitter. Cuando estos textos son alimentados a modelos de ML, no se asigna un peso a la intensidad de las publicaciones, lo cual puede influir directamente en la precisión y efectividad de los modelos predictivos. Esto se ve en cómo los modelos generan sus resultados, lo que genera interrogantes sobre el objetivo de la predicción: si se trata de un solo tuit o una serie de respuestas que un individuo ofrece en un hilo de conversación.
Un ejemplo práctico de cómo un modelo de aprendizaje automático puede detectar estrés a partir de datos de redes sociales se ilustra utilizando un conjunto de datos de hilos de Reddit. Este conjunto está compuesto por más de 3000 artículos, cada uno etiquetado como “0” (artículo sin estrés) o “1” (artículo con estrés), y la información está dividida en el título, el cuerpo del artículo y una combinación de ambos. A continuación, se utiliza una tarea sencilla de clasificación de texto, implementada con la biblioteca KerasNLP, una herramienta práctica y accesible que ofrece modelos preentrenados listos para usar. En este caso particular, el modelo utilizado es el clasificador RoBERTa, el cual se carga y se entrena con el conjunto de datos de Reddit para hacer predicciones sobre si un texto refleja estrés o no.
El proceso de implementación del modelo de clasificación es bastante directo:
-
Se instalan las bibliotecas necesarias, como Keras-NLP, numpy y sklearn.
-
Se importan las librerías correspondientes y se carga el conjunto de datos de Reddit.
-
Luego, se asignan las etiquetas a los textos, de acuerdo a si el artículo refleja un estado de estrés negativo o positivo.
-
El siguiente paso es entrenar el modelo utilizando el clasificador RoBERTa de KerasNLP.
-
Finalmente, se hace una predicción utilizando el modelo entrenado, el cual puede proporcionar una evaluación precisa de si el texto analizado refleja un alto nivel de estrés, asignando un valor de “1” para el estrés positivo o “0” para el negativo.
Este enfoque demuestra cómo, a través del análisis de texto de redes sociales, es posible detectar señales de estrés en los usuarios, lo que permite una intervención temprana o la implementación de estrategias para mitigar efectos adversos en la salud mental.
Además de las técnicas basadas en texto, los datos basados en la ubicación también se están utilizando cada vez más como indicadores de salud mental. La sociabilidad, entendida como el número y la fuerza de las conexiones sociales de una persona, juega un papel crucial en el bienestar mental. Se ha observado que las personas con círculos sociales más pequeños y menos conexiones, como es el caso de las adolescentes, tienen una mayor propensión a sufrir de depresión y ansiedad. La integración de datos provenientes de sensores portátiles y dispositivos Bluetooth puede aportar indicios valiosos sobre la salud mental de un individuo. Estos dispositivos permiten rastrear la proximidad social, la densidad de personas en el entorno cercano y los patrones de movilidad, lo que resulta en un marcador conductual útil.
Por ejemplo, los datos de Bluetooth y GPS pueden ayudar a detectar variaciones en la ubicación de una persona a lo largo del tiempo, y su frecuencia en ciertos lugares. Cuando un individuo pasa más tiempo en menos lugares y con una menor diversidad de cambios de ubicación en un período de 24 horas, es más propenso a experimentar síntomas de depresión severa. Esto sugiere que el análisis de patrones de movimiento y la exposición a distintos entornos puede proporcionar una visión importante de la salud mental de un individuo. Los datos de ubicación también se pueden desglosar en cuatro características clave: distancia recorrida, entropía (variación en el tiempo pasado en distintos lugares), irregularidad en los movimientos y patrones de localización.
A nivel de preprocesamiento de los datos, las redes sociales generan una gran cantidad de información textual que debe ser depurada y procesada para poder extraer características útiles antes de ser introducida en los modelos de ML. Este proceso de preprocesamiento incluye la eliminación de caracteres ruidosos que no ayudan en la extracción de características o en las tareas predictivas, como la eliminación de caracteres no alfanuméricos, la eliminación de palabras comunes (stop words), la lematización (transformación de palabras a su raíz) y la tokenización (división de textos en unidades más pequeñas, como palabras). Además, es esencial contar con diccionarios de sentimientos y listas de palabras vacías específicas para cada idioma, lo que facilita el ajuste y la optimización del modelo para lenguajes distintos al inglés.
La extracción de características es otro paso crucial en este proceso. Mediante el uso de técnicas como los n-gramas (secuencias de palabras que aparecen de manera consecutiva) y los modelos de incrustación de palabras como Word2Vec o GloVe, se puede mejorar la identificación de patrones antes de pasar los datos a los modelos predictivos. También es importante considerar el uso de caracteres especiales, como los hashtags y las menciones en Twitter, que pueden proporcionar contexto adicional al modelo, así como el uso de pronombres personales, que resultan ser características útiles para predecir condiciones como la depresión.
Es fundamental destacar que, aunque los modelos basados en texto y ubicación pueden ofrecer predicciones poderosas, estos sistemas no son infalibles y dependen en gran medida de la calidad de los datos que reciben. La precisión de los modelos de aprendizaje automático dependerá siempre de la correcta preparación de los datos y de la atención al detalle en cada etapa del proceso, desde el preprocesamiento hasta la validación final.
¿Cómo pueden los modelos basados en voz e imagen predecir la depresión y el malestar mental en jóvenes?
La interacción entre la inteligencia artificial y los datos derivados del habla y del video humano ha permitido construir modelos predictivos que revelan patrones sutiles de angustia mental. En el corazón de este proceso se encuentran los autoencoders, estructuras neuronales diseñadas para comprimir los rasgos esenciales de una señal compleja en una representación latente más simple, y luego reconstruirla. Durante esa reconstrucción, el modelo aprende las relaciones más relevantes entre las características del input original, conservando solo aquello que verdaderamente expresa su esencia.
En el contexto del reconocimiento de emociones y del diagnóstico de depresión, los autoencoders —en especial los adversariales— son capaces de extraer representaciones ocultas de muestras de voz o video, de modo que lo emocional y lo fisiológico quedan codificados en vectores latentes. Esa capacidad para transformar señales humanas en estructuras matemáticas permite detectar variaciones en el tono, la entonación o la dinámica facial que reflejan estados mentales internos.
El aprendizaje semisupervisado potencia aún más esta técnica: no es necesario disponer de datos etiquetados, ya que el modelo puede deducir por sí mismo las pautas espaciales y temporales del comportamiento humano a partir de datos sin procesar. Los autoencoders se utilizan así como sistemas capaces de aprender la estructura oculta de la actividad humana y detectar alteraciones que anuncian trastornos depresivos o ansiosos. Además, los autoencoders adversariales ofrecen una robustez particular, adaptándose a cambios recientes en las dinámicas conductuales sin requerir una reconfiguración manual.
La combinación de autoencoders con redes LSTM amplía el horizonte analítico, al permitir que las secuencias temporales de voz o expresión facial sean comprendidas como narrativas emocionales en el tiempo. LSTM capta la evolución de la respuesta emocional, lo que se traduce en mayor precisión al identificar tanto trastornos bipolares como depresivos unipolares. En entornos híbridos, donde las redes convolucionales extraen rasgos visuales del rostro y las LSTM los integran con patrones de audio, emerge una capacidad singular para captar las sutilezas entre lenguaje, gesto y emoción.
Los estudios neurofisiológicos confirman que los estados depresivos modifican el control laríngeo y la vibración de las cuerdas vocales. Tales alteraciones se traducen en características acústicas medibles, perceptibles por redes neuronales profundas. Los modelos basados en CNN han demostrado identificar con alta precisión las estructuras subyacentes del habla que revelan niveles de depresión, superando en eficacia a los métodos tradicionales. En un experimento con 165 participantes coreanos, la detección automática de depresión mediante voz alcanzó una exactitud del 78,14%, validando la superioridad del enfoque basado en aprendizaje profundo frente a los sistemas con ingeniería manual de características.
La ventaja práctica de este tipo de modelos radica en su aplicabilidad cotidiana. El uso de teléfonos inteligentes para registrar voz facilita la creación de bases de datos amplias y representativas. Las grabaciones de lectura controlada —donde todos los participantes pronuncian el mismo texto— permiten eliminar la variabilidad acústica y proporcionan una base sólida para el análisis. Sin embargo, la calidad del registro resulta crítica: las grabaciones deben realizarse en espacios silenciosos y con una distancia óptima entre micrófono y hablante.
Estos sistemas, combinados con infraestructuras capaces de procesar datos en tiempo real, abren la posibilidad de un monitoreo continuo del funcionamiento social y emocional. La integración de modelos neuronales en entornos clínicos o domésticos, conectados a servicios de salud mental con enfoque de 360 grados, permitiría no solo detectar síntomas, sino anticipar crisis y promover la prevención personalizada.
La capacidad de las redes neuronales para inferir el funcionamiento cognitivo

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский