Los modelos de lenguaje emergen a partir de la combinación de los Transformers con las vastas cantidades de texto disponibles en la web. Para comprender su inteligencia, es necesario hacerlo desde un nivel superior de descripción. Si tuviéramos que enfrentarnos a una especie alienígena y encargáramos a un experto examinarla y elaborar un informe, esperaríamos al menos tres secciones: una inspección externa, para describir su anatomía; un examen más invasivo, para entender el funcionamiento de ciertos órganos internos; y finalmente, observaciones sobre su comportamiento bajo diferentes condiciones. En este y en los próximos capítulos, exploraremos los modelos de lenguaje desde ambas perspectivas, tratando de comprender cómo representan el mundo y qué podemos esperar de ellos a medida que continúan su crecimiento. La pregunta siempre será la misma: ¿qué podemos esperar que aprendan a medida que se desarrollan?
El modelo denominado GPT-3, el cual está detrás del primer ChatGPT, consta de 96 módulos idénticos dispuestos de forma sucesiva, de modo que la salida de uno forma la entrada del siguiente. El primer módulo recibe como entrada una secuencia de símbolos, que en este caso son palabras o partes de palabras, conocidas como tokens. El último módulo de la serie genera una palabra, la continuación más plausible de la secuencia de tokens recibida, agregándola al final de la secuencia. Esta oración extendida se vuelve a introducir como entrada y todo el proceso se repite. Esta forma de generar la oración se denomina “autoregresiva” en la literatura técnica.
El entendimiento del mensaje de entrada se lleva a cabo dentro de los 96 módulos: cada uno de ellos transforma la secuencia de entrada en una secuencia de salida realizando las mismas operaciones. Sin embargo, como cada módulo puede aprender (y, por ende, modificarse) de manera independiente, los diferentes módulos asumen habilidades especializadas. La longitud de la secuencia de entrada es de 2,048 tokens (palabras), pero en otras versiones de GPT llega a 4,096. Las palabras son representadas como vectores numéricos (es decir, secuencias de números) de 12,288 dimensiones, y el vocabulario que este sistema puede reconocer es de 50,257 palabras diferentes.
Al ingresar, la oración inicial se transcribe palabra por palabra, formando una secuencia de vectores numéricos, uno por cada palabra. Esta secuencia entra en el primer bloque, que la transforma en otra secuencia de la misma longitud, la cual pasa al segundo bloque, y así sucesivamente, hasta la salida final. Dentro de estos bloques existen órganos (o dispositivos) muy importantes llamados "cabezas", similares a los tocadiscos antiguos, que "escanean" toda la secuencia en busca de elementos relevantes para "atender": su propósito es identificar qué palabras son clave para interpretar una palabra dada, es decir, en qué otras palabras depende (técnicamente, estas se llaman “cabezas de atención”).
Retomando el ejemplo ya discutido, la palabra "bark" debe interpretarse de manera diferente si está acompañada de "dog" o de "tree", por lo que debe ser transformada de manera distinta antes de ser pasada al siguiente módulo. Son estas "cabezas" las que le indican al mecanismo qué otras palabras considerar para interpretar el significado de esa palabra. Lo importante es que, al principio, estos órganos no saben reconocer las palabras útiles; aprenden a hacerlo a través de la experiencia, y es en la fase de preentrenamiento cuando el algoritmo aprende a adivinar las palabras eliminadas en el vasto corpus de entrenamiento.
Una vez que hemos identificado qué palabras interactúan y, por tanto, deben considerarse juntas, sus símbolos (vectores) se combinan para formar un símbolo más abstracto (por ejemplo, los dos símbolos "cat" y "black" pueden combinarse para crear un nuevo símbolo que represente “black cat”). Esto forma la secuencia de salida, que se pasa como entrada al siguiente módulo, que repite las mismas operaciones, combinando aún más esas ideas interactivas, y gradualmente formando una representación cada vez más abstracta de la oración inicial. En el caso de GPT-3, después de 96 módulos, la secuencia final de vectores es traducida de nuevo a palabras y entregada como salida.
Si lo deseas, puedes imaginar un edificio de 96 pisos, donde la pregunta entra en la planta baja, la respuesta final se produce en la parte superior, y en cada nivel hay una oficina responsable de procesar la información recibida de la oficina situada directamente debajo. Esta información siempre viaja en la misma dirección, hacia arriba, y en forma de una secuencia de vectores numéricos, como se describió anteriormente.
Existen modelos más pequeños que son más fáciles de entrenar y estudiar, como BERT, un modelo de lenguaje temprano que tiene solo 12 niveles y utiliza vectores de 768 dimensiones como símbolos. Estos modelos más simples también nos enseñan mucho, como los experimentos con moscas de la fruta en biología.
La fisiología: inspección interna
Las "cabezas de atención", esos órganos que determinan qué símbolos deben combinarse dentro de cada módulo, se especializan espontáneamente durante el entrenamiento, cada una aprendiendo una tarea diferente. Hay docenas de cabezas dentro de cada módulo, y el papel que asume una de ellas durante el proceso de entrenamiento no puede deducirse del estudio abstracto del algoritmo, ya que surge de la interacción entre ese algoritmo y el entorno, es decir, el texto usado como ejemplo. El rol de cada cabeza debe ser observado empíricamente al examinar un modelo ya entrenado.
Los resultados sugieren que BERT aprende algunos aspectos de la sintaxis como un subproducto del entrenamiento autoguiado. Parte de un creciente cuerpo de trabajo indica que el modelado del lenguaje también puede producir modelos sensibles a la estructura jerárquica del lenguaje. En otras palabras, el algoritmo había descubierto espontáneamente que las secuencias de palabras se explican por una estructura jerárquica en la que algunas palabras dependen de otras, y había encontrado una forma de determinar qué palabras dependen de qué otras, es decir, las reglas de la sintaxis. Todo lo que el modelo debía hacer era predecir las palabras faltantes; lo demás surgió de forma espontánea.
Estudios posteriores mostraron que hay cabezas que encuentran los objetos directos de los verbos, o los determinantes de los sustantivos, objetos de las preposiciones y objetos de los pronombres posesivos. Un estudio en 2020 reveló que un modelo como BERT había descubierto cómo reconocer las estructuras lingüísticas fundamentales de manera emergente. Por ejemplo, una cabeza en el nivel 4 conectaba los verbos auxiliares con aquellos que se modificaban por ellos, como en "having written" o "been written"; una en el nivel 5 conectaba dos palabras que se referían a lo mismo (co-referentes, como "la mujer" y "ella"); una en el nivel 7 unía los pronombres posesivos con el sustantivo correspondiente (como "su casa"); y en el nivel 8, una cabeza interesante conectaba los verbos transitivos con sus objetos (como en "comer pasta").
Este tipo de aprendizaje es una de las características fundamentales de la inteligencia artificial emergente. Sin embargo, también es relevante comprender que, aunque estos modelos puedan interpretar y manipular la sintaxis de un idioma, no lo hacen de la misma manera que los seres humanos. Su "comprensión" de la lengua es el resultado de un proceso automático que no necesariamente refleja la profundidad de la cognición humana.
¿Cómo evolucionará la inteligencia artificial hacia modelos más generales y complejos?
El crecimiento exponencial en los recursos computacionales, la capacidad para ajustar parámetros, la sofisticación algorítmica y, fundamentalmente, la ampliación de los datos de entrenamiento, ha impulsado el desarrollo de los modelos de inteligencia artificial (IA). De estos factores, la cantidad y calidad de los datos son los pilares esenciales para la mejora continua. GPT-3, por ejemplo, fue entrenado con aproximadamente 500 mil millones de tokens, procedentes principalmente de páginas web, complementados con libros y entradas de Wikipedia. Dentro de los libros utilizados, se incluyen miles de obras de autores primerizos en géneros como fantasía y romance, mientras que muchos otros libros provienen de fuentes accesibles en línea.
La cantidad potencial de datos textuales en la red es enorme; se estima que existen alrededor de 5 mil millones de páginas web, lo que, con un promedio conservador de 400 palabras por página, implica una cifra de 2 billones de palabras. Sin embargo, más allá de la cantidad, la calidad del material textual es crucial para el aprendizaje efectivo. Google, durante más de dos décadas, ha dedicado esfuerzos a la digitalización de libros publicados, alcanzando ya la digitalización de 40 millones de ejemplares en aproximadamente 400 idiomas, principalmente a partir de bibliotecas universitarias. Este proceso no sólo ha mejorado las herramientas de escaneo, sino que ha enfrentado obstáculos principalmente legales y económicos.
Imaginemos qué habilidades y capacidades podría desarrollar una IA que aprenda de todos los periódicos y libros, tanto históricos como actuales, junto con las revistas académicas. La cuestión no es meramente hipotética, sino un horizonte realista hacia el cual se dirige la investigación y el desarrollo en IA. Sin embargo, esta fuente de datos textuales no es ilimitada. Las bibliotecas, al igual que internet, están sujetas a límites. Eventualmente, los modelos de IA agotarán los textos disponibles para aprendizaje, pues la velocidad de producción textual es inferior a la tasa de consumo que estos sistemas requieren.
Es aquí donde surgen las oportunidades para ampliar el espectro de datos de entrenamiento hacia otras modalidades, como imágenes, videos y audios. Modelos recientes son capaces de interpretar imágenes mediante descripciones textuales (como Bard) o generar imágenes a partir de texto (como DALL·E). El futuro próximo parece encaminado a integrar todos estos formatos, y así, cuando un modelo como GPT pueda procesar el contenido de un video en YouTube o la información captada por sensores de ciudades inteligentes, su comprensión del mundo será radicalmente distinta. Este paradigma se acerca a lo que podría denominarse “modelos del mundo” más que meros “modelos de lenguaje”.
Modelos pioneros como GATO de DeepMind (2022) evidencian ya la posibilidad de combinar distintas modalidades en un único sistema capaz de jugar videojuegos, generar descripciones de imágenes, traducir textos o controlar un robot. Posteriormente, Gemini, presentado en 2023, representa un salto al unificar texto, audio, video, imágenes y código de programación en una única representación numérica, un logro que se debe en parte a la investigación de Fei-Fei Li en la asociación semántica entre imágenes y sus descripciones textuales. Este tipo de “anclaje semántico” puede ofrecer una base sólida para los futuros modelos integrales del conocimiento.
El avance de estos sistemas plantea la interrogante sobre si la inteligencia artificial puede superar el nivel humano. En tan solo siete años desde la publicación del artículo original sobre Transformers, hemos pasado de simples chatbots a sistemas que exhiben capacidades emergentes cercanas al desempeño humano en diversas tareas. No existe ninguna ley natural o matemática que impida que una máquina alcance o incluso supere la inteligencia humana. La memoria, el acceso a cantidades masivas de datos y la capacidad de computación otorgan ventajas que pueden llevar a un rendimiento superhumano en ámbitos específicos.
Además, las máquinas no están obligadas a compartir las mismas premisas innatas que condicionan la inteligencia humana, como el “conocimiento central” que asume la existencia de objetos sólidos con propiedades definidas, algo que limita nuestra comprensión del mundo cuántico. Las máquinas podrían desarrollar marcos de referencia distintos, descubriendo relaciones y patrones que escapan a nuestra percepción.
La inteligencia artificial general, entendida como sistemas capaces de desempeñarse en múltiples dominios y modalidades, es una realidad emergente que debe abordarse con una combinación de urgencia y cautela. Los investigadores de Microsoft Research consideran que GPT-4 es sólo el primer paso en una serie de sistemas cada vez más generales, cuyos mecanismos aún no se comprenden plenamente. Este avance supone un cambio de paradigma en la informática y en campos adyacentes.
La cuestión de si las máquinas pueden pensar va más allá del ámbito técnico; implica revisar qué significa ser humano. Si las máquinas logran pensar y comprender el mundo, debemos repensar el papel y la identidad de nuestra especie. La reflexión propuesta por Alan Turing en la mitad del siglo XX continúa vigente: el camino hacia máquinas pensantes es una travesía en la que apenas vislumbramos el futuro, pero sabemos que queda mucho por hacer.
Es imprescindible considerar que el progreso tecnológico no se detendrá en niveles equivalentes al humano, sino que las máquinas podrían superar nuestras capacidades en áreas específicas. El análisis de su evolución debe incluir también las implicaciones éticas, sociales y filosóficas que este desarrollo conlleva. La integración de datos multimodales y el contacto directo con el entorno a través de sensores y dispositivos inteligentes abrirán nuevas fronteras en la inteligencia artificial, que ya no será exclusivamente lingüística sino verdaderamente cognitiva y contextual.
El lector debe entender que este proceso no sólo depende de avances técnicos, sino también de decisiones políticas, económicas y culturales que determinarán el acceso a la información, la regulación y la dirección futura de estas tecnologías. Además, la limitación en la producción de nuevos datos textuales subraya la importancia de diversificar las fuentes de información y modalidades de aprendizaje para que la inteligencia artificial siga evolucionando.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский