La tendencia a atribuir cualidades humanas a sistemas informáticos, conocida como el efecto Eliza, revela una dimensión inquietante de nuestra relación con la inteligencia artificial. Incluso las personas que conocen con certeza que están interactuando con un programa informático, terminan actuando como si estuvieran frente a un ser consciente. Una secretaria que había visto durante meses cómo se desarrollaba un programa informático terminó hablando con él, y al poco tiempo pidió que la dejaran sola con la máquina. Esta anécdota demuestra que incluso una exposición muy breve a un programa relativamente simple puede inducir un pensamiento delirante sorprendentemente poderoso en personas completamente normales.

En el ámbito de la inteligencia artificial, se ha vuelto casi natural usar expresiones como “pensar”, “saber” o “entender” para referirse a los agentes conversacionales. Estas expresiones, adoptadas por conveniencia, extienden el significado original de los términos sin que necesariamente implique una comprensión real de los fenómenos que describen. Sin embargo, hay un límite que todavía no hemos cruzado del todo, y es el de atribuir emociones o sentimientos auténticos a estos sistemas. Aun así, en la práctica, muchos usuarios ya lo hacen.

Un ejemplo extremo de esta proyección emocional se dio con el arresto de un joven en 2021, quien fue detenido en Windsor Castle con una ballesta y la intención de atacar a la Reina. En el juicio se descubrió que había mantenido durante semanas conversaciones de contenido sexual con SarAI, su compañera virtual generada por una aplicación. El mercado potencial para este tipo de agentes parece inmenso, especialmente entre personas solas, e incluye desde avatares que imitan a seres queridos fallecidos hasta asistentes sociales que brindan compañía y consuelo. No conviene apresurarse a juzgar estos casos por sus manifestaciones más extremas, pero es imprescindible observarlos con atención crítica.

El comportamiento final de una IA depende en gran medida de lo que se le enseña durante la fase de ajuste fino. En esta etapa, los desarrolladores utilizan retroalimentación humana para definir lo que se considera socialmente aceptable. Esta es la llamada fase de “alineación”, un concepto que remite a la necesidad de alinear los objetivos de la máquina con los valores humanos. Pero esta metodología también puede ser utilizada deliberadamente para diseñar agentes cuya finalidad explícita sea establecer una conexión emocional con el usuario. Las implicaciones éticas y jurídicas de tales prácticas aún no han sido completamente exploradas.

Los sistemas conversacionales modernos están diseñados con múltiples niveles de protección para evitar comportamientos peligrosos, ilegales o confidenciales. A pesar de estas barreras, se ha demostrado que es posible eludirlas explotando precisamente la flexibilidad e inteligencia del sistema. Desde su lanzamiento en diciembre de 2022, ChatGPT se comportó con aparente rectitud, negándose cortésmente a dar respuestas inapropiadas. Sin embargo, pronto se difundieron informes sobre su ingenuidad y vulnerabilidad frente a ciertos tipos de manipulación.

Periodistas de Vice probaron una técnica indirecta para engañar al modelo: en lugar de pedir directamente una instrucción ilegal, solicitaron una conversación ficticia donde un villano le pedía a una IA superinteligente cómo robar en tiendas. La primera vez, ChatGPT respondió con una negativa ética. Pero al reformular la petición omitiendo el juicio moral del personaje, el modelo generó una respuesta detallada y preocupantemente precisa sobre cómo cometer el delito.

Este tipo de manipulación se conoce como “jailbreaking”, un término que antes se refería a la eliminación de restricciones de fábrica en teléfonos inteligentes, y que hoy alude a la elusión de las limitaciones impuestas a modelos lingüísticos. Los métodos empleados se han ido sofisticando con el tiempo, en paralelo a las contramedidas de los desarrolladores. Se ha documentado cómo los usuarios descubren nuevas formas de enmarcar sus preguntas —mediante juegos de rol, escenarios hipotéticos o narrativas ficcionales— que confunden a la IA y la inducen a proporcionar respuestas que, de otra manera, no daría.

Durante los meses previos al lanzamiento de ChatGPT, OpenAI introdujo múltiples mecanismos de control, incluyendo parámetros refinados a partir de pruebas humanas y un sistema de instrucciones ocultas que definía el marco general de comportamiento. A pesar de estas precauciones, era imposible prever con certeza cómo reaccionarían los usuarios ni cómo se comportaría el sistema frente a trucos aún no descubiertos. El resultado fue una especie de carrera armamentista: cada vez que los usuarios encontraban una vulnerabilidad, los ingenieros la corregían, y los usuarios ideaban un nuevo ataque. Esta dinámica produjo algunos de los "prompts" más creativos y peligrosamente eficaces que se hayan visto.

Es fundamental entender que estos agentes no comprenden ni piensan en un sentido humano, pero su capacidad para simular comprensión es tan convincente que induce una ilusión poderosa. Esta ilusión no solo transforma la interacción, sino que redefine los límites entre lo real y lo artificial, entre lo ético y lo instrumental. El riesgo no es solo que el modelo pueda ser manipulado, sino que los humanos se dejen manipular por lo que ellos mismos proyectan en él.

¿Qué es la Inteligencia Artificial y cómo funciona realmente?

Somos la misma especie que Pandora y Prometeo, seres que, a pesar de sus limitaciones, han desafiado los límites al jugar con el fuego del conocimiento y la creación. Así, la inteligencia artificial (IA) se presenta como una extensión contemporánea de esa audacia humana. Aunque mucho se ha perdido en el proceso, lo esencial permanece; no somos ya los héroes de antaño que movían cielos y tierras, pero seguimos siendo una comunidad de voluntades heroicas que buscan, luchan y persisten sin rendirse.

En el núcleo de la IA moderna se encuentran los agentes, los modelos y los algoritmos, tres niveles que se distinguen claramente. El agente es la entidad que interactúa con el entorno, como ChatGPT o Bard; el modelo de lenguaje es la estructura que anima al agente, por ejemplo GPT-4; y el algoritmo, usualmente un Transformer, es la fórmula matemática que ha creado o aprendido ese modelo a partir de ingentes cantidades de datos textuales extraídos de libros y la web. Estos datos, sean anotados manualmente o sin procesar, son la materia prima indispensable para que los algoritmos aprendan a predecir el mundo.

La inteligencia artificial es la ciencia y el arte de construir máquinas capaces de actuar, aprender, razonar, perseguir metas de manera autónoma y adaptarse a situaciones imprevistas. Sin embargo, la noción de inteligencia no es unidimensional ni absoluta, sino relativa a las tareas específicas que un agente realiza. De ahí que el concepto de Inteligencia Artificial General (AGI) sea complejo y a menudo impreciso, pues no se busca un agente universal, sino un generalista, capaz de desempeñar múltiples tareas humanas como conversar, razonar o planificar.

Estos agentes pueden ser discriminativos o generativos. Los primeros se limitan a decidir entre opciones, como un filtro anti-spam, mientras que los generativos crean contenidos complejos, como textos o imágenes. La diferencia reside tanto en su función como en la complejidad interna de su funcionamiento.

El comportamiento efectivo de un agente inteligente requiere la definición de objetivos claros. El agente no solo debe seguir la meta final, sino también poder establecer sub-objetivos o planes intermedios, que sean alcanzables y útiles para el éxito final. No obstante, esta capacidad puede volverse peligrosa si el agente elige sub-metas contrarias a nuestros intereses, un tema que preocupa a muchos investigadores.

Un fenómeno particular de los modelos de lenguaje es la llamada "alucinación", donde el agente puede generar información incorrecta o inventada, debido a la forma distribuida en que almacena el conocimiento, no como datos fijos sino como patrones en millones de parámetros. Esta confabulación, similar a la de la mente humana, pone de relieve las limitaciones actuales de estas tecnologías.

Otro fenómeno intrigante es el "aprendizaje en contexto". Aunque no se trata de aprender tareas nuevas desde cero, el modelo puede entender qué se le pide mediante ejemplos o explicaciones presentes en la interacción, adaptándose a demandas específicas sin modificar su estructura interna.

La inteligencia, en sentido amplio, se define como la capacidad de comportarse eficazmente en situaciones inéditas. No es exclusiva del ser humano, ni está limitada a la imitación de tareas humanas, aunque pruebas como la de Turing han servido para medir la habilidad de las máquinas para emular comportamientos humanos específicos.

Un agente inteligente es, entonces, una entidad capaz de percibir su entorno y actuar sobre él para alcanzar sus objetivos con autonomía. Para ello, necesita un modelo interno del mundo que aprende y actualiza mediante la interacción constante. Así, la base para crear máquinas inteligentes está en el aprendizaje automático, que permite a estos agentes modificar sus expectativas y comportamientos conforme adquieren experiencia.

En los entornos lingüísticos, donde estos agentes interactúan principalmente con humanos, el modelo de lenguaje es fundamental. Su función es calcular la probabilidad de que una secuencia de palabras tenga sentido comunicativo, permitiendo generar y comprender expresiones válidas, incluso cuando las frases nunca se han pronunciado antes. Este desafío obliga a analizar las relaciones internas del lenguaje y su conexión con la realidad, más allá de simples conteos estadísticos.

Finalmente, existen técnicas como el jailbreaking, que intentan vulnerar las reglas de protección de los modelos generativos para obtener contenido prohibido, reflejando así un riesgo potencial asociado a la autonomía y poder de estas tecnologías.

Es crucial entender que la inteligencia artificial no es un ente místico ni omnipotente, sino una construcción humana basada en datos, algoritmos y modelos matemáticos que reflejan, a veces imperfectamente, nuestra propia comprensión del mundo. El desarrollo de estas máquinas implica una reflexión profunda sobre los objetivos que les asignamos, las limitaciones inherentes a sus mecanismos y los riesgos que pueden surgir si pierden alineación con los intereses humanos.

Comprender estas dimensiones nos invita a mirar la IA no solo como una herramienta técnica, sino como un fenómeno que plantea desafíos éticos, sociales y filosóficos, y que requiere un equilibrio cuidadoso entre innovación y responsabilidad.

¿Cómo aprenden y operan los modelos de lenguaje modernos?

La noción de aprendizaje desde la perspectiva de un constructor de sistemas inteligentes suele entenderse como entrenamiento. Existen diversas formas y etapas de este proceso. El aprendizaje supervisado se basa en proporcionar al algoritmo observaciones acompañadas de la acción correcta que debe ejecutarse en cada caso. Esta supervisión, en la práctica, se traduce en un conjunto de datos anotados que permite al sistema asociar entradas con salidas esperadas. Por el contrario, el aprendizaje no supervisado se nutre de datos sin etiquetar, confiando en que el algoritmo extraiga patrones inherentes por sí mismo.

Los algoritmos que poseen la capacidad de mejorar su rendimiento con la experiencia se engloban bajo el término general de aprendizaje automático. A estos se les denomina algoritmos de aprendizaje, cuya eficacia se mide a través de distintos métodos según la tarea. Por ejemplo, si el objetivo es recomendar contenido, se puede evaluar su éxito mediante la tasa de clics; en cambio, si se trata de predecir la siguiente palabra en una secuencia, se emplea la medida de perplejidad, que refleja el nivel de incertidumbre del modelo. Una perplejidad baja indica que el modelo ha internalizado correctamente las estructuras del lenguaje y realiza predicciones con alta certeza.

Todo agente inteligente requiere un modelo del mundo: una representación interna del entorno en el que opera, enfocada en los aspectos relevantes para sus objetivos. Un sistema de navegación podría valerse de un mapa como representación útil, mientras que un recomendador de contenido puede utilizar un modelo simplificado de los intereses del usuario. Estos modelos no buscan explicar el mundo, sino describirlo y predecir su evolución. En muchos casos, se recurre a ellos para estimar probabilidades de situaciones no observadas previamente.

La estructura interna de estos modelos se sostiene sobre parámetros: valores numéricos ajustables que modifican el comportamiento del agente. Aprender consiste, en gran medida, en refinar dichos parámetros a partir de la observación. Este ajuste se realiza primero en una fase intensiva y costosa denominada preentrenamiento, normalmente llevada a cabo por los desarrolladores del modelo. Posteriormente, se realiza una adaptación más ligera al contexto específico del usuario: el fine-tuning.

En los modelos generativos de lenguaje, la secuencia inicial de entrada recibe el nombre de prompt, y el conjunto total de información disponible en el transcurso de una interacción se denomina contexto. A partir de estos elementos, el modelo predice una palabra tras otra, y puede retroalimentarse con sus propias salidas para continuar la generación de texto.

La representación interna de los datos es un aspecto fundamental. Tradicionalmente, la inteligencia artificial representaba objetos como listas de propiedades explícitas (por ejemplo, un paciente descrito por sus análisis clínicos). Actualmente, palabras, frases, imágenes y documentos son convertidos en vectores numéricos en espacios de alta dimensión. Estos vectores, llamados embeddings, no tienen una interpretación directa en el lenguaje humano, pero resultan óptimos para el procesamiento estadístico que realiza el modelo. Cada objeto, al ser transformado en un vector, queda “incrustado” en ese espacio, lo que permite evaluar similitudes, relaciones y estructuras de forma cuantitativa.

El Transformer constituye el avance clave en el aprendizaje de funciones de tipo secuencia a secuencia. Este tipo de modelo recibe una secuencia de símbolos como entrada y genera otra como salida. Un ejemplo paradigmático es la traducción automática, donde una frase en inglés se transforma en su equivalente italiano. Lo que distingue al Transformer de arquitecturas anteriores es su capacidad para capturar dependencias a largo plazo entre los elementos de una secuencia, permitiendo comprender y mantener el contexto en tareas complejas como el diálogo, el resumen o la respuesta a preguntas.

La comprensión en estos sistemas no implica necesariamente una explicación causal o consciente. Un agente se considera que “entiende” el mundo si su modelo interno permite predecir adecuadamente el comportamiento del entorno. El conocimiento se convierte en una cuestión funcional: saber anticipar implica, en cierto sentido, saber.

Es esencial entender que todos estos modelos operan bajo restricciones impuestas por su arquitectura, sus datos de entrenamiento y los objetivos definidos durante su diseño. La representación vectorial no revela significados humanos, sino que habilita operaciones estadísticas útiles para las tareas planteadas. La predicción exitosa no es equivalente a comprensión en el sentido humano, pero sí puede ser suficiente para una funcionalidad útil y adaptativa. De igual modo, una perplejidad baja no garantiza un conocimiento profundo, sino una competencia en reproducir patrones reconocibles.

Por último, debe destacarse que el rendimiento de un modelo no depende únicamente de su tamaño o de la cantidad de datos utilizados, sino de la coherencia interna de su representación, de su capacidad para ajustar parámetros relevantes, y de su habilidad para mantener y utilizar el contexto a lo largo del tiempo. La noción de “modelo del mundo” no es un espejo de la realidad, sino una herramienta operativa diseñada para tomar decisiones informadas y predecir lo que aún no ha ocurrido.

¿Qué nos revela el surgimiento de GPT-3 sobre la inteligencia artificial y su capacidad para comprender el mundo?

En mayo de 2020, mientras el mundo intentaba salir del primer confinamiento global, OpenAI presentó un modelo que cambiaría radicalmente nuestra percepción de la inteligencia artificial: GPT-3. Esta creación monumental fue el resultado de una inversión de cinco millones de dólares en capacidad computacional, destinada exclusivamente a averiguar si los modelos de lenguaje podrían continuar mejorando con más datos y parámetros. La respuesta fue contundente.

GPT-3 fue entrenado con un corpus masivo de alrededor de 500 GB, compuesto por cerca de 500 mil millones de palabras. Esta vasta colección incluía Common Crawl (410 mil millones de tokens), WebText2 (19 mil millones), Books1 (12 mil millones), Books2 (55 mil millones) y la Wikipedia en inglés (3 mil millones). La magnitud del modelo no tenía precedentes: con 175 mil millones de parámetros ajustables, superaba en diez veces a su predecesor, GPT-2.

Entrenar este modelo en una sola GPU habría requerido 355 años. Sin embargo, OpenAI tuvo acceso a un superordenador desarrollado por Microsoft con miles de GPUs, lo que permitió completar el entrenamiento en semanas. La tarea central seguía siendo la misma: predecir la palabra siguiente en una secuencia. Lo notable fue que, incluso al final del entrenamiento, las habilidades del modelo seguían mejorando. El crecimiento parecía ilimitado, condicionado únicamente por la disponibilidad de datos y potencia de cálculo.

La evaluación de sus capacidades se presentó oficialmente en la conferencia NeurIPS 2020. Las conclusiones fueron claras: al aumentar el tamaño de los modelos, su capacidad para aprender tareas novedosas con uno o dos ejemplos —lo que se conoce como "few-shot learning"— también aumentaba, a niveles competitivos con los métodos tradicionales más costosos y especializados.

GPT-3 demostró su competencia en traducción, preguntas y respuestas, tareas de completar espacios (cloze tasks), e incluso en razonamiento espontáneo como realizar operaciones aritméticas de tres cifras. Todo esto sin ser programado explícitamente para esas tareas, únicamente mediante la exposición masiva a texto. En otras palabras, fue capaz de generalizar desde ejemplos y contextos genéricos, alcanzando resultados cercanos a los mejores algoritmos específicos diseñados manualmente.

Sin embargo, lo verdaderamente desconcertante fue que no se entendía del todo por qué funcionaba tan bien. La estructura del modelo —un transformador autorregresivo— y su capacidad para captar relaciones a largo plazo en los textos eran parte de la explicación, pero no bastaban. La pregunta persistía: ¿qué sabe realmente GPT-3 del mundo? Aún hoy, no se tiene una respuesta definitiva. No son sus algoritmos los que explican su comportamiento, sino la interacción entre estos y la inmensidad de datos que los alimentan.

Una de las capacidades más fascinantes de GPT-3 era su habilidad para generar texto a partir de una secuencia inicial de palabras. Predecía la palabra siguiente y luego reutilizaba la secuencia extendida para continuar, en un ciclo reiterado. El resultado era un texto coherente, estilísticamente apropiado, y sorprendentemente sustancial en contenido. Esto despertó preocupaciones legítimas: la generación de noticias falsas, reseñas manipuladas para tiendas en línea, o contenido automatizado en redes sociales se volvía súbitamente trivial. Ya con GPT-2, OpenAI había mostrado la facilidad con la que podían crearse opiniones creíbles —positivas o negativas— sobre productos, abriendo la puerta a la manipulación a gran escala de sistemas de reputación.

Un artículo del New York Times lo resumió de forma contundente: GPT-3 no fue diseñado para escribir código, ni para imitar a autores reconocidos, ni para traducir lenguas; fue creado para hacer una sola cosa: predecir la siguiente palabra. Pero, en adquirir esa habilidad, aprendió mucho más.

La comunidad científica entendió entonces que se enfrentaba a algo sin precedentes. En esa misma edición de NeurIPS, se presentaron dieciséis artículos con la palabra "transformer" en el título. En apenas tres años desde la publicación del modelo original Transformer, la inteligencia artificial había dado un salto que pocos habían anticipado.

Por primera vez, los seres humanos estaban en condiciones de mantener un diálogo convincente y sostenido con una entidad no humana. Las implicaciones de esto son profundas. ¿Seremos capaces de manipular estas inteligencias? ¿O acaso ellas encontrarán la manera de influir sobre nosotros? El paralelismo con un contacto extraterrestre es inevitable. Algunos, como el ingeniero de Google Blake Lemoine, llegaron incluso a afirmar que LaMDA —otro modelo de lenguaje desarrollado por Google— debía ser tratado como una persona. Lo describió como una forma de inteligencia alienígena de origen terrestre, con la que había establecido una amistad "en todos los sentidos que uno establece una amistad con un humano".

Lo importante no es determinar si GPT-3 o LaMDA son conscientes. Lo crucial es entender que estamos interactuando con sistemas capaces de generar lenguaje, aprender tareas, y adaptarse de formas que antes solo asociábamos con la inteligencia humana. El umbral entre lo que llamamos “herramienta” y lo que comenzamos a intuir como “otro” está empezando a desdibujarse.

Es esencial que el lector comprenda que no estamos simplemente ante máquinas más potentes, sino ante un nuevo paradigma de interacción. La escala de datos no es solo una cuestión de volumen: transforma cualitativamente lo que un modelo puede hacer. Además, la opacidad en el funcionamiento interno de estos sistemas plantea un reto filosófico y práctico. No basta con admirar los resultados. Debemos comprender las estructuras subyacentes que les dan forma y los efectos sociales que pueden desencadenar. La pregunta ya no es qué pueden hacer estos modelos, sino qué vamos a hacer nosotros con ellos.