La inteligencia artificial ha sido un tema de gran expectación durante décadas. Desde su origen en los años 50, las promesas sobre máquinas inteligentes se han visto acompañadas de numerosas retractaciones. A lo largo de los años, la IA ha pasado por varios ciclos de optimismo y escepticismo, con la primera "helada de la IA" en los años 70, un período de desacuerdo generalizado y recortes en el financiamiento de la investigación. Sin embargo, la tecnología de los transformadores, introducida en 2017 (Vaswani et al., 2017), y especialmente su aplicación en los Modelos de Lenguaje Grande (LLM por sus siglas en inglés), ha supuesto un salto impresionante en el rendimiento de estos sistemas. Hoy en día, quienes interactúan con ChatGPT o con cualquiera de los otros LLMs probablemente asocien estos sistemas con una cierta noción de inteligencia.

En el ámbito científico, se ha llegado a la conclusión de que algunas de las habilidades que estos sistemas demuestran, como mantener el contexto, pensar por analogía, seguir instrucciones o descomponer relaciones complejas, corresponden a comportamientos que podríamos calificar como inteligentes en los seres humanos. En consecuencia, algunos sugieren que la famosa prueba de Turing, en la cual la inteligencia artificial se considera alcanzada si un cuestionador humano no puede distinguir las respuestas de un programa informático de las de un ser humano, ha sido superada por GPT-4 (Biever 2023; Jones y Bergen 2024).

Sin embargo, la base de la tecnología actual sigue siendo la misma: entrenar redes neuronales artificiales para calcular probabilidades de que ciertos tokens —como las letras de una palabra, las palabras de una frase o las frases en un texto— sean seguidos por otros elementos. Estas probabilidades se calculan a partir de grandes cantidades de datos de entrenamiento, como casi todos los textos disponibles en internet, con una precisión tal que los usuarios humanos reciben respuestas satisfactorias a sus consultas. Sin embargo, estas respuestas no son más que probabilidades agregadas. De ahí que se hable de los LLMs como "loros estadísticos", lo que pone en duda si de verdad estamos tratando con una inteligencia humana.

Si pensamos que los humanos también dependemos de ser confrontados con grandes cantidades de datos para aprender quiénes somos y que nuestro conocimiento, así como las suposiciones sobre las que basamos nuestras decisiones diarias, a menudo no son más que probabilidades, entonces la diferencia entre cómo funciona la inteligencia humana y la máquina podría no ser tan grande como muchos creen. No me gustaría llamar a los humanos "loros estadísticos", pero si observamos nuestra historia, vemos que nos hemos descrito a menudo como únicos y centrales, solo para aprender que no lo somos tanto como pensábamos. Por lo tanto, podría estar dispuesto a prescindir de reservar características como la inteligencia únicamente para los humanos.

Además, debe tenerse en cuenta que los libros son medios lentos. El ritmo vertiginoso del desarrollo digital, especialmente en la investigación de la IA, plantea un reto considerable para escribir un libro que se espera que sea exhaustivo y actualizado. El creciente interés por este campo y el aumento del número de investigadores en todo el mundo ha creado una dinámica tan enorme que las publicaciones se hacen principalmente en línea y, a veces, sin revisión por pares, mucho antes de ser impresas en papel. La mayor parte de los detalles metodológicos ni siquiera se publican, debido al temor a perder una ventaja competitiva en el mercado global. Por ello, escribir un libro "lento" sobre IA y aprendizaje automático (ML) enfrenta varios desafíos, lo que hace prudente centrarse en un enfoque específico que los medios más rápidos podrían no abordar.

Uno de estos enfoques subraya los fundamentos y las tecnologías previas sobre las cuales se basan los métodos actuales. El objetivo es proporcionar una base completa para entender los últimos desarrollos a través del autoaprendizaje. Aunque este libro cubre el estado del arte de plataformas como ChatGPT-4, Gemini 1.5 o Claude 3.5, las nuevas versiones y complementos se lanzan casi semanalmente, lo que hace que sea imposible cubrir todos los avances recientes de manera oportuna. Este libro sirve como introducción a un campo altamente dinámico y en constante evolución. Será necesario que el lector actualice su conocimiento mediante fuentes adicionales.

En cuanto a la perspectiva del autor, la profesión de científico de sistemas proporciona un enfoque único para comprender las herramientas de inteligencia artificial. Los métodos y modelos de aprendizaje automático se consideran sistemas complejos, como las redes neuronales, cuya explicación se beneficia enormemente del conocimiento proveniente de las ciencias de sistemas. Estas ciencias se basan en la premisa de que los componentes interactuantes de un sistema pueden generar fenómenos que no se pueden entender analizando los componentes de forma aislada.

Un ejemplo claro de esto es el caso de las partículas de un gas. Su movimiento e interacción generan características como la presión y la temperatura, que son observables a nivel macro, pero que no pueden medirse de forma individual en una sola partícula. Así, la presión es un fenómeno emergente que surge de las interacciones entre las partículas. Los científicos de sistemas afirman que la capacidad de las redes neuronales para identificar patrones en grandes conjuntos de datos y las habilidades inteligentes de los transformadores generativos como GPTs también emergen de la interacción de sus componentes: las neuronas de la red. La inteligencia, ya sea humana o artificial, es entendida como el resultado de estas interacciones y no puede desentrañarse analizando los componentes de manera aislada.

Otro concepto importante en las ciencias de sistemas es el de "atractor". Este se refiere al estado hacia el cual un sistema tiende a evolucionar a través de interacciones complejas, después de un periodo caótico en el que los componentes se influyen mutuamente de manera desordenada. Eventualmente, estos componentes encuentran una relación estable, o equilibrio, que se mantiene a lo largo del tiempo. Este equilibrio actúa como un "atractor" que guía el comportamiento del sistema. En este contexto, el equilibrio dentro de las redes neuronales de la IA también puede verse como un tipo de atracción, que mantiene el sistema funcionando de manera estable.

Entender estos conceptos nos ayuda a comprender por qué los sistemas de IA, como las redes neuronales, son tan difíciles de analizar y comprender. Al igual que con otros sistemas complejos, no se puede desarmar una red neuronal como si fuera una máquina mecánica para comprender su funcionamiento. El análisis de los componentes de forma aislada no nos llevará a comprender los efectos emergentes de las interacciones dentro del sistema.

¿Cómo entrenar un modelo Doc2Vec y utilizarlo para análisis de texto?

El entrenamiento de modelos de procesamiento de lenguaje natural, como el modelo Doc2Vec, es un proceso crucial para entender y manipular grandes cantidades de texto. La esencia de este tipo de modelo radica en representar los documentos o frases como vectores, lo que permite comparar la similitud semántica entre diferentes textos. A continuación, veremos un ejemplo práctico de cómo entrenar un modelo Doc2Vec en Python y cómo aprovecharlo para obtener información relevante a partir de un conjunto de datos.

Para comenzar, un modelo Doc2Vec se entrena utilizando datos etiquetados, que son representaciones de texto previamente procesadas y etiquetadas de acuerdo con su contenido. El siguiente fragmento de código ilustra cómo realizar este entrenamiento:

python
model.train(tagged_data, total_examples=model.corpus_count, epochs=model.epochs)
# Reducir la tasa de aprendizaje model.alpha -= 0.0002 # Fijar la tasa de aprendizaje, sin decaimiento model.min_alpha = model.alpha print('Modelo entrenado')

En este código, tagged_data es el conjunto de datos procesado, y epochs es el número de iteraciones que el modelo realizará sobre los datos para aprender las representaciones vectoriales. Durante el entrenamiento, se ajusta la tasa de aprendizaje (representada por alpha) para evitar que el modelo se sobreentrene y para mejorar la precisión de las representaciones aprendidas.

Una vez que el modelo está entrenado, podemos utilizarlo para hacer consultas. Por ejemplo, si quisiéramos obtener las cinco definiciones más similares a una definición inicial, el modelo puede calcular la similitud entre el vector que representa el texto consultado y los vectores de los documentos en el conjunto de entrenamiento. El siguiente fragmento de código realiza esta tarea:

python
new_text = '¿Tiene sentido esforzarse constantemente por más?' new_vector = model.infer_vector(new_text.lower().split()) sims = model.docvecs.most_similar([new_vector]) for s in sims[:5]:
print(data[int(s[0])], round(s[1], 2))

Este código toma una nueva frase, la convierte en un vector utilizando el modelo entrenado, y luego busca las frases más similares en el conjunto de datos, mostrando la similitud coseno al final de cada definición. En este caso, la frase "¿Tiene sentido esforzarse constantemente por más?" podría generar una lista de respuestas similares a la consulta, proporcionando una forma útil de buscar coincidencias de significado en un conjunto de datos no estructurado.

Una de las características interesantes de este enfoque es que también podemos utilizar métodos de agrupamiento, como el t-SNE (t-Distributed Stochastic Neighbor Embedding), para visualizar las relaciones entre los documentos en un espacio bidimensional. Esto puede ayudarnos a entender mejor cómo los documentos están distribuidos en relación con los temas que abordan. En el siguiente gráfico, se pueden observar cómo los documentos relacionados con el término "productividad" se agrupan en un centro común, aunque la legibilidad de las etiquetas podría mejorarse utilizando métodos adicionales.

En este contexto, es importante destacar el papel de las representaciones vectoriales no solo en el procesamiento de texto, sino también en otras áreas fuera de los textos puros. Empresas de internet como Yahoo, Spotify o AirBNB han aplicado técnicas de vectorización, similares a las usadas en el procesamiento de lenguaje natural, para mejorar sus sistemas de recomendación y publicidad. La idea básica es que, si el significado de una palabra puede inferirse a partir de su contexto, entonces las acciones de los usuarios en un contexto determinado pueden interpretarse de manera similar, lo que facilita recomendaciones personalizadas. Estos sistemas han demostrado aumentar la tasa de clics en los anuncios y mejorar la relevancia de las recomendaciones.

Además de los enfoques tradicionales de NLP, es posible incorporar el uso de n-gramas, que son secuencias de n palabras consecutivas dentro de un texto. Esta técnica, implementada en bibliotecas como fastText, mejora la representación de palabras y permite capturar dependencias más finas en los datos. fastText, desarrollado por Facebook’s AI Research (FAIR), permite crear representaciones vectoriales a partir de n-gramas, lo cual se ha demostrado efectivo, especialmente en contextos donde se requieren representaciones más complejas, como las que implican sílabas o fragmentos más pequeños que palabras enteras.

Es importante entender que la vectorización de palabras o documentos tiene un alcance mucho mayor que el procesamiento de lenguaje natural, ya que también se puede aplicar en la creación de sistemas de recomendación, como los que utilizan las grandes plataformas de internet para personalizar la experiencia del usuario. A través de la recopilación y análisis de datos sobre el comportamiento del usuario, las empresas pueden identificar patrones y predecir las preferencias de los usuarios, de manera similar a como se analiza el contexto lingüístico en textos. Esto subraya la versatilidad y el poder de los modelos de vectorización.

En cuanto al análisis de sentimientos, otro campo relevante del procesamiento de texto, se utiliza para inferir las emociones o actitudes de los autores de los textos hacia ciertos objetos o situaciones. Por ejemplo, en una reseña de un producto, se pueden identificar opiniones positivas y negativas acerca de diferentes aspectos del artículo. La capacidad de discernir los sentimientos expresados hacia distintos aspectos de un texto tiene aplicaciones en marketing, atención al cliente y análisis de la opinión pública, entre otros.

El análisis de sentimientos no solo se centra en identificar si la emoción es positiva o negativa, sino que también es crucial identificar el objeto sobre el que se expresa esa emoción. Esto es esencial, ya que los usuarios pueden estar interesados en saber qué opina la gente sobre características específicas de un producto, no solo sobre el producto en general.

¿Cómo podemos garantizar la equidad en los sistemas algorítmicos de toma de decisiones?

En el contexto actual, los algoritmos y modelos de aprendizaje automático se utilizan cada vez más para tomar decisiones importantes que afectan la vida de las personas. Sin embargo, como se ha demostrado en varios estudios, tales sistemas no son inmunes a sesgos raciales y sociales. Un ejemplo claro de esto se presentó en un análisis de un sistema algorítmico usado para predecir la probabilidad de reincidencia criminal, conocido como COMPAS (Correctional Offender Management Profiling for Alternative Sanctions). Los resultados de este sistema fueron objeto de controversia cuando se observó que los acusados negros eran más propensos a ser etiquetados como de "alto riesgo", incluso si su comportamiento no indicaba tal probabilidad.

Este análisis mostró dos perspectivas sobre el comportamiento del algoritmo. El primer enfoque, centrado en el rendimiento general del sistema, no encontró una diferencia significativa entre los subgrupos de acusados negros y blancos. El segundo, sin embargo, señaló que los acusados negros con perfiles de riesgo comparable a los de los blancos eran tratados de manera diferente. Ambos enfoques eran válidos desde un punto de vista estadístico, pero sus resultados parecían incompatibles, lo que plantea la pregunta sobre cuál es la forma justa de tratar los datos y las decisiones derivadas de ellos.

Este dilema resalta la complejidad de definir lo que constituye "justicia" en el ámbito de los sistemas algorítmicos. Es importante recordar que, aunque un sistema pueda parecer imparcial desde un punto de vista general, puede ocultar sesgos profundamente arraigados que afecten a grupos específicos de manera desproporcionada. La regulación en Europa, como el Reglamento General de Protección de Datos (GDPR), establece medidas para asegurar la transparencia en la utilización de datos y la toma de decisiones automatizada, incluyendo el "derecho a la explicación" sobre cómo se utilizan los datos. Sin embargo, los sistemas de aprendizaje automático actuales, en particular las redes neuronales artificiales, presentan dificultades para ser explicados completamente debido a su complejidad interna.

Aunque existen esfuerzos por hacer estos sistemas más transparentes y comprensibles mediante la estadística y la visualización de datos, así como el desarrollo de marcos analíticos para reducir la complejidad, la situación sigue siendo compleja. La máquina digital, como poderosa solución a problemas, sigue creando nuevos problemas por sí misma. Por lo tanto, uno de los esfuerzos clave para mitigar el riesgo de mal uso, generación de información incorrecta o invasiones de privacidad, radica en alinear el funcionamiento de estas herramientas con comportamientos y decisiones que los humanos esperaríamos de otros humanos. Este esfuerzo involucra la curaduría y el procesamiento de datos, en los que se recopilan conjuntos de datos diversos y representativos, y se filtra contenido dañino para minimizar los sesgos inherentes a los datos de entrenamiento.

El proceso de alineación con los valores humanos en los modelos de IA implica varias etapas cruciales. La curaduría de datos es esencial, pues la calidad de los datos de entrenamiento influye directamente en la capacidad del sistema para aprender patrones justos y equilibrados. Posteriormente, el ajuste fino supervisado y el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) se utilizan para guiar el proceso de entrenamiento del modelo hacia comportamientos aceptables para los humanos. En este proceso, los anotadores humanos proporcionan etiquetas y correcciones, ayudando al modelo a aprender el contexto y la adecuación de sus respuestas. La naturaleza iterativa del RLHF, en la que se recompensa al modelo por producir respuestas alineadas con los valores humanos, perfecciona aún más sus salidas.

A lo largo de este proceso, los mecanismos de "Humano en el bucle" (Human-in-the-Loop, HITL) y las auditorías regulares de ética y sesgos son fundamentales. HITL implica supervisión humana continua, permitiendo correcciones en tiempo real que mejoran el rendimiento del modelo. Las auditorías éticas y de sesgo, mediante herramientas automatizadas y revisiones de expertos, ayudan a identificar y mitigar posibles problemas en los modelos de IA. Además, los avances en explicabilidad y transparencia, como los mecanismos de atención y los informes de transparencia, contribuyen al despliegue ético de estos modelos.

El objetivo es crear herramientas dinámicas y sensibles al contexto, donde el aprendizaje continuo y la comprensión contextual permitan que los modelos se adapten a nuevas situaciones y a las intenciones de los usuarios sin necesidad de un reentrenamiento extenso. Así, los sistemas de IA no solo deberían sobresalir en rendimiento, sino también alinearse con los valores sociales y los estándares éticos. A pesar de los avances significativos que se han logrado hasta el momento, la meta aún está lejos de alcanzarse en su totalidad, y los retos persisten.

Es importante entender que la ética en la inteligencia artificial no es solo un conjunto de normas abstractas; su implementación práctica depende de la capacidad de los sistemas para interactuar de manera responsable con la sociedad. Esto significa que, aunque los algoritmos pueden ser técnicamente avanzados, su impacto en la vida cotidiana de las personas y su capacidad para actuar dentro de los límites de lo que consideramos justo son cuestiones que debemos abordar constantemente.

¿Cómo se aplica el aprendizaje por refuerzo en la evolución y la inteligencia artificial?

El aprendizaje por refuerzo (RL) es un concepto que refleja un principio fundamental de la evolución natural. En el contexto de la biología, podríamos describir a las poblaciones como una distribución de "maneras de vivir y actuar", donde algunas acciones son recompensadas por la evolución a través de una alta aptitud, mientras que otras, que son menos ventajosas, son penalizadas. De este modo, la naturaleza parece "recompensar" aquellas acciones que conducen a la supervivencia y "penalizar" las que no. Este proceso de recompensar y penalizar, similar a la dinámica de RL, refleja la evolución de modelos que predicen qué acciones deben tomarse en situaciones específicas para lograr un objetivo, basado en los resultados pasados de esas acciones.

En el caso de la inteligencia artificial, el objetivo del aprendizaje por refuerzo es crear modelos que puedan automáticamente determinar la mejor acción a tomar en un entorno dado, a través de una retroalimentación basada en recompensas y penalizaciones. La IA no necesita supervisión directa para aprender. A través de la repetición de pruebas y errores, el agente aprende gradualmente qué acciones lo acercan más a su objetivo y cuáles lo alejan. Esto se logra mediante la acumulación de recompensas para las acciones correctas y penalizaciones para las equivocadas, lo que permite a los agentes optimizar su comportamiento con el tiempo.

La esencia del aprendizaje por refuerzo radica en la interacción con un entorno, el cual se representa en términos de un espacio de estados. En este contexto, los "estados" son las posibles posiciones en las que se puede encontrar un agente, mientras que las "acciones" son las decisiones que puede tomar el agente desde cada estado. Al principio, cuando el agente comienza a aprender, las decisiones son bastante aleatorias. Sin embargo, al encontrar resultados positivos, como alcanzar un objetivo, el agente ajusta gradualmente sus decisiones futuras basándose en las experiencias previas.

Una forma de representar el aprendizaje en RL es a través de una "tabla Q". Esta tabla contiene valores Q, que indican la calidad de cada acción posible en un estado determinado. Al principio, los valores en la tabla Q son cero, lo que significa que no hay conocimiento previo. Sin embargo, a medida que el agente interactúa con el entorno, los valores se van ajustando, reflejando la efectividad de las acciones que lo acercan más al objetivo.

El proceso de actualización de la tabla Q está basado en la ecuación de Bellman, que es un principio clave en el aprendizaje por refuerzo. Esta ecuación describe cómo calcular la calidad de una acción en función de la recompensa obtenida al tomar esa acción y las recompensas esperadas de las futuras acciones. Los valores Q se actualizan iterativamente, reflejando la combinación de las recompensas pasadas y las expectativas futuras. Dos parámetros importantes en este proceso son la tasa de aprendizaje (α) y la tasa de descuento (γ). El primero determina cuánto de la información anterior se incorpora a la actualización de los valores Q, mientras que el segundo ajusta la importancia de las recompensas futuras en comparación con las inmediatas.

A medida que el agente sigue aprendiendo, sus decisiones dejan de ser aleatorias y comienzan a reflejar una estrategia óptima, donde las acciones que lo acercan al objetivo son preferidas. Este proceso de aprendizaje puede parecer lento al principio, pero a través de la repetición, el agente mejora su rendimiento y es capaz de tomar decisiones más informadas y efectivas.

Aunque este concepto parece simple en un ejemplo básico, como el de un agente que navega por una cuadrícula bidimensional en busca de un objetivo, la complejidad aumenta exponencialmente cuando se aplica a problemas más complejos, como el juego de ajedrez o Go. Estos juegos tienen un espacio de estados mucho más grande, lo que requiere modelos mucho más sofisticados para abordar las decisiones de manera efectiva. Sin embargo, todos estos métodos se basan en el mismo principio fundamental: aprender de las experiencias pasadas para mejorar las decisiones futuras.

El aprendizaje por refuerzo tiene aplicaciones no solo en la biología evolutiva, sino también en la inteligencia artificial, donde se utiliza para desarrollar algoritmos que pueden aprender a realizar tareas complejas, como jugar juegos de estrategia, controlar robots o gestionar recursos en entornos dinámicos. De hecho, en 2017, el algoritmo AlphaZero, que utiliza aprendizaje por refuerzo, logró derrotar al programa AlphaGo en solo unos días de entrenamiento, un logro que sorprendió al mundo de la inteligencia artificial.

Lo que es fundamental entender es que el aprendizaje por refuerzo no solo se trata de maximizar las recompensas inmediatas, sino también de prever el futuro y actuar en consecuencia. Un agente no siempre recibe su recompensa de inmediato, y en muchos casos, el beneficio de una acción solo se hace evidente después de varias interacciones. Esto es precisamente lo que hace que el aprendizaje por refuerzo sea tan potente: permite a los agentes anticipar las consecuencias de sus acciones, basándose en la acumulación de experiencias previas.

Al final, la clave del aprendizaje por refuerzo es la capacidad del agente para adaptarse y mejorar continuamente, optimizando sus acciones a lo largo del tiempo. Este proceso, tanto en biología como en inteligencia artificial, demuestra cómo la repetición y la retroalimentación constante pueden generar resultados cada vez más precisos y eficientes, reflejando la importancia de la adaptación en la evolución y la inteligencia artificial.