El procesamiento del lenguaje natural (PLN) ha evolucionado de manera considerable, permitiendo que los sistemas informáticos analicen, interpreten y comprendan textos escritos de forma más precisa. Sin embargo, uno de los mayores desafíos sigue siendo la extracción de información significativa de fuentes de texto no estructuradas o analógicas. Esto es particularmente complicado cuando se trata de documentos en formatos como PDF, que no tienen una estructura claramente definida. A pesar de estas dificultades, existen métodos poderosos que, utilizando herramientas adecuadas, permiten transformar textos no legibles en información procesable.

Un ejemplo es la extracción de anuncios de empleo a partir de páginas de periódicos antiguos en formato PDF. Para ello, se pueden usar módulos de Python como pdfminer y opencv, los cuales permiten separar columnas de texto y aplicar el reconocimiento óptico de caracteres (OCR) para extraer partes del texto (como se muestra en la figura 76). Sin embargo, un desafío importante es que, debido a la calidad del impreso original, algunas palabras pueden ser mal interpretadas por el OCR, generando errores de escritura que las computadoras no pueden entender con facilidad. Un caso típico sería el término “Laudniaedchen”, que, al ser procesado por OCR, no se reconoce como “Landmädchen” (niña de campo).

A pesar de que los humanos pueden corregir estos errores sin mayor esfuerzo, las máquinas deben ser preparadas para gestionar estas inconsistencias. Una herramienta útil en este contexto es la similitud de Levenshtein, que mide la distancia entre dos palabras al contar el número de operaciones necesarias para convertir una palabra en otra (inserciones, eliminaciones o sustituciones). Por ejemplo, la distancia entre las palabras "productive" y "produktiv" es de 3 (una sustitución y una eliminación), lo que produce una similitud de Levenshtein de aproximadamente 0.84. Este tipo de técnicas permite la corrección automática de errores de OCR, mejorando la calidad de los datos extraídos.

Una vez extraído el texto, es posible realizar un análisis más profundo utilizando métodos estadísticos y computacionales avanzados, como el Análisis Semántico Latente (LSA, por sus siglas en inglés). LSA es un método matemático que permite descubrir relaciones latentes entre términos en una colección de documentos. A diferencia de los enfoques tradicionales que analizan cada documento individualmente, LSA considera el corpus en su totalidad, buscando correlaciones y contextos entre palabras. Este análisis puede revelar que palabras como "sand" (arena) y "beach" (playa) están semánticamente relacionadas, aunque la primera no aparezca explícitamente en los documentos que contienen la segunda.

El proceso de LSA se basa en la observación de que las palabras no tienen un solo significado. En lugar de asignar un único concepto a una palabra, LSA admite que una palabra puede tener múltiples significados, los cuales se definen en función del contexto. Un ejemplo claro es la palabra "bank", que puede referirse tanto a una institución financiera como a la orilla de un río, dependiendo de las palabras que la acompañen. Así, LSA mapea las palabras y sus contextos a un "espacio conceptual" donde se comparan diferentes significados de una palabra. Este enfoque permite deshacerse de la "ruido" que genera el uso de sinónimos o la variabilidad en la forma en que diferentes autores expresan la misma idea.

El primer paso en LSA consiste en construir una matriz de términos-documentos, en la que cada fila representa una palabra y cada columna un documento. Las celdas de esta matriz contienen la frecuencia con la que un término aparece en un documento. El siguiente paso es aplicar una técnica matemática llamada descomposición en valores singulares (SVD), que reduce la matriz a su forma más compacta, permitiendo identificar patrones de términos que tienden a aparecer juntos en los mismos documentos.

Para ilustrar cómo funciona este proceso, consideremos el siguiente conjunto de definiciones de productividad en nueve documentos. Estos documentos describen el concepto de productividad desde diferentes perspectivas, pero tienen términos comunes como "eficiencia", "entrada", "salida" y "costos". Al aplicar LSA, podemos identificar las relaciones latentes entre estos términos, aunque no todos los documentos usen la misma terminología.

Además de los métodos mencionados, existen herramientas que permiten visualizar los resultados de los análisis de forma gráfica. Con módulos como networkx en Python, es posible generar representaciones visuales de redes de palabras y sus contextos, lo que facilita la comprensión de cómo se relacionan los términos dentro de un corpus. En otras palabras, estos enfoques pueden crear mapas semánticos que visualizan las conexiones entre palabras y contextos de manera clara y accesible, ayudando a los investigadores o analistas a interpretar datos complejos.

Es fundamental comprender que el procesamiento de textos no estructurados no se limita solo a la extracción de información. La comprensión de los contextos en los que las palabras se utilizan, el análisis de sus significados latentes y la capacidad para corregir errores en los datos extraídos son habilidades clave para cualquier proyecto de PLN. Los métodos de análisis semántico, como el LSA, abren nuevas puertas para analizar grandes volúmenes de texto de manera más profunda y significativa.

¿Cómo el empoderamiento define las posibilidades de acción en los agentes?

El empoderamiento se refiere a las posibilidades de acción que un organismo tiene sobre su entorno, es decir, al control que tiene sobre su mundo, desde su propia perspectiva subjetiva (o la perspectiva de su modelo interno). Si un agente es consciente de que tiene opciones –como levantarse, caminar, hablar, cantar, aprender, o incluso salir de una habitación– está empoderado. Si no es consciente de estas opciones o no las posee, no lo está. Este concepto puede ser entendido a través de la teoría de la información, lo que permite su uso en simulaciones.

Desde la teoría de la información, el empoderamiento puede ser formalizado como el flujo causal máximo, es decir, la capacidad del canal entre los actuadores del agente (los medios con los que realiza una acción) y sus sensores (los medios con los que percibe el estado de su mundo). Este flujo puede medirse a través de la capacidad de canal, un concepto definido por Shannon en 1948. La capacidad del canal se refiere a la cantidad máxima de información mutua, medida en bits, que una distribución de probabilidades de señales recibidas puede contener sobre la distribución de probabilidades de las señales enviadas originalmente.

En este caso, sería la distribución de probabilidad condicional de las actuaciones observadas y los datos sensoriales, es decir, la capacidad del canal entre las acciones de un agente en un momento determinado y los estímulos sensoriales que percibe en un tiempo posterior. También puede interpretarse como la cantidad de información que un agente podría "inyectar" potencialmente en su mundo a través de sus actuadores y luego capturarla mediante sus sensores.

Un ejemplo que ilustra esta dinámica es el bucle de percepción-acción propuesto por Powers en 2005. En este bucle, el agente elige una acción basada en las entradas sensoriales del paso de tiempo anterior, lo que influye en el estado del mundo y, a su vez, modifica la próxima entrada sensorial. Este ciclo se repite, definiendo un flujo de información desde los actuadores del agente hacia sus sensores. El empoderamiento en este contexto es la máxima información mutua entre estos dos componentes: la cantidad de opciones de acción que el agente percibe dada su visión del mundo a través de los sensores.

El empoderamiento, entonces, define un espacio de posibilidades para la acción, desde el cual el agente seleccionará, según el principio de empoderamiento, la acción que prometa un mayor empoderamiento en el siguiente paso. Este horizonte de posibilidades está determinado por cuántos pasos el agente puede anticipar hacia el futuro, o en otras palabras, por la complejidad del modelo que el agente puede mantener.

Consideremos a un agente en un mundo de cuadrícula bidimensional limitado, donde tiene cinco tipos de acciones posibles: ir al norte, ir al este, ir al sur, ir al oeste o quedarse en su lugar. Si el agente tiene un horizonte de un solo paso, será capaz de verificar estas cinco opciones en relación con las casillas vecinas. Si el agente está en el centro del mundo, verá que tiene esas cinco posibilidades. Sin embargo, si está en el borde de la cuadrícula, percibirá una opción menos, y si está en una esquina, tendrá dos opciones menos. Si sigue el principio de empoderamiento, el agente se moverá hacia el centro, porque es allí donde el empoderamiento percibido es mayor.

Si este mismo agente tuviera un horizonte más amplio, podría anticipar con mayor claridad las restricciones que impone el borde del mundo. Esto lo llevaría a moverse más hacia el centro, donde su empoderamiento es mayor. La capacidad de mirar más allá de los límites inmediatos incrementa la percepción de opciones futuras, ampliando así el horizonte de acción del agente.

Este principio de empoderamiento se puede aplicar a una amplia gama de problemas, incluso cuando solo se tiene información local sobre la situación presente. No es necesario recurrir a experiencias históricas para que el agente se oriente en función de sus metas. Esto es particularmente útil en entornos desconocidos, donde el agente puede tomar decisiones a partir de la percepción inmediata del mundo y de las opciones disponibles, sin necesidad de conocer el estado completo del entorno.

Por ejemplo, un agente podría tratar de salir de una zona confinada de la cuadrícula simplemente siguiendo el gradiente de empoderamiento hacia un lugar con mayores opciones, incluso si no tiene información sobre la estructura global del entorno. Este tipo de decisiones locales basadas en el empoderamiento se muestra claramente en los ejemplos donde el agente se mueve, paso a paso, hacia áreas que incrementan su empoderamiento percibido, como cuando explora los límites de un pasillo estrecho.

A medida que se amplía el horizonte del agente, la complejidad de su toma de decisiones también aumenta. Un horizonte más grande permite al agente percibir mejor las posibles rutas hacia un objetivo, como escapar de una zona confinada. Sin embargo, si el horizonte se hace demasiado grande, el agente puede perder de vista las opciones inmediatas, eligiendo caminos que, aunque sean de mayor empoderamiento, no lo llevan hacia su objetivo.

El empoderamiento también tiene una relación interesante con el concepto de Entropía Causal, propuesto por Wissner-Gross y Freer en 2013. Al igual que el empoderamiento, las fuerzas entropicas causales (CEF) sugieren que el agente debería orientarse hacia aquellas acciones que maximicen su capacidad de generar información en el futuro. En ambos casos, el horizonte de acción juega un papel crucial, ya que determina cómo el agente percibe y selecciona sus acciones a lo largo del tiempo. La capacidad de modelar el futuro, incluso si este es incierto, es lo que permite al agente orientar sus acciones hacia objetivos de largo plazo sin depender de experiencia pasada.