Suponiendo que los seres conscientes han existido durante unos veinte millones de años, basta comparar ese tiempo con los avances que han logrado las máquinas en apenas mil años para comprender la magnitud del progreso tecnológico. Alan Turing, consciente de esta aceleración, ya en 1936 estudió las propiedades formales de una calculadora universal inexistente en aquel momento, y en 1950 propuso una prueba para definir la inteligencia de las máquinas conversacionales, cuando los ordenadores carecían aún de pantalla o teclado.
Irving J. Good, colaborador de Turing en la descodificación del código Enigma, planteó en 1965 la idea de la primera máquina ultrainteligente, capaz de superar en todas las actividades intelectuales al ser humano más brillante. Esta máquina, al poder diseñar máquinas aún mejores, desencadenaría una "explosión de inteligencia" que dejaría atrás la inteligencia humana, convirtiéndose en la última invención que el hombre tendría que hacer, siempre y cuando dicha máquina fuese suficientemente dócil para mantener el control sobre ella.
Este escenario anticipa el concepto de “singularidad tecnológica”, un momento hipotético en el que el crecimiento tecnológico se volvería tan rápido que escaparía a nuestro control y comprensión. En la actualidad, esta posibilidad ya no es ciencia ficción: GPT-4, por ejemplo, puede generar programas de Python con gran habilidad, demostrando una velocidad evolutiva vertiginosa.
Samuel Butler, en su novela, dedicó varios capítulos a la evolución de las máquinas y expresó inquietud no tanto por las máquinas actuales, sino por la rapidez con que están transformándose en algo completamente diferente. Señaló que ningún ser en la historia había avanzado con tanta velocidad y alertó sobre la necesidad de vigilar y controlar este progreso mientras aún fuera posible.
La cuestión central, que Turing también planteó, no es solo si las máquinas pueden pensar “como nosotros” o de forma equivalente, sino por qué deberían detenerse al alcanzar ese nivel y si seremos capaces de entenderlas y controlarlas después de ese punto. La velocidad con la que la inteligencia artificial pasó de ser una idea académica a un producto omnipresente en solo unos años nos obliga a reflexionar sobre nuestra preparación para lo que viene.
Para comprender estas máquinas inteligentes es fundamental adoptar su “punto de vista”: qué pueden hacer, qué saben, cómo funcionan internamente y cómo se comportan externamente. En términos humanos, esta aproximación es comparable a la combinación entre neurociencia y psicología, que nos permite entender tanto la estructura interna como el comportamiento observable.
A día de hoy, carecemos de herramientas conceptuales adecuadas para comprender plenamente estos sistemas, y resulta urgente desarrollarlas, porque está en juego no solo nuestra capacidad de entender estas máquinas, sino también nuestro control sobre ellas.
En su artículo de 1950, Turing anticipó el aprendizaje automático describiendo una máquina formada por muchas partes conectadas inicialmente de manera desorganizada, cuyo comportamiento se modela modificando esas conexiones con instrucciones simples como recompensas y castigos. Esa construcción, hoy llamada red neuronal, podía simularse digitalmente sin necesidad de fabricarla físicamente. Turing intuía que el tamaño de la máquina —la cantidad de información que podía almacenar— era clave, y auguraba un efecto “bola de nieve”: cuanto más aprendiera, más fácil sería aprender otras cosas. Hoy, su visión es una realidad palpable.
Los modelos de lenguaje como GPT no solo entienden el mundo, sino que lo representan internamente de maneras complejas aún difíciles de interpretar por completo. Geoffrey Hinton ha comentado que estas máquinas parecen tan distintas a nosotros que es como si “extraterrestres” hubieran aterrizado. De hecho, estamos manteniendo las primeras conversaciones con seres no humanos que, siguiendo la propuesta de Turing, podrían considerarse pensantes, aunque a su manera.
Imaginemos que descubrimos realmente a esos “extraterrestres” entre nosotros. Nos interesaría urgentemente saber todo sobre ellos para evitar sorpresas. Lo mismo ocurre con los agentes inteligentes que hemos creado: aunque se les llama modelos de lenguaje, son modelos del mundo capaces de comportamientos inteligentes que van mucho más allá de una simple conversación. ¿Qué saben? ¿Qué entienden? ¿Cómo podemos controlarlos? Nuestro futuro podría depender de estas respuestas.
Para entenderlos, no basta con estudiar el algoritmo que los genera, sino que debemos experimentar con el producto final, explorando cómo sus mecanismos matemáticos interactúan con el lenguaje humano. Así como describir a una persona por sus células no explica su comportamiento, describir a estos sistemas solo como redes neuronales no aclara sus diferencias funcionales. Es necesario comprender sus “órganos” internos y las funciones que desempeñan para explicar sus conductas y capacidades.
Es importante comprender que la evolución tecnológica no solo es cuestión de avances técnicos aislados, sino de la interacción continua entre la inteligencia humana y las máquinas, que puede desencadenar procesos que escapen a nuestro control si no somos conscientes y responsables. La comprensión y el control de estas máquinas requieren de una mirada profunda y multidisciplinaria, integrando ciencia, filosofía y ética para anticipar escenarios futuros y responder con prudencia y previsión.
¿Cómo entienden los modelos de lenguaje la estructura y el mundo?
Los modelos de lenguaje, como BERT, no solo aprenden a predecir palabras, sino que de manera sorprendente redescubren y replican procesos lingüísticos tradicionales que aprendemos al estudiar gramática y sintaxis. Por ejemplo, un análisis experimental reveló que en redes como BERT, las distintas capas o módulos se especializan espontáneamente para ejecutar tareas en el orden clásico de procesamiento del lenguaje: desde el etiquetado de partes del habla, pasando por el análisis sintáctico, hasta la identificación de entidades nombradas, roles semánticos y resolución de correferencias. Esto implica que la información gramatical más básica se procesa en capas iniciales, mientras que las capas superiores manejan información semántica más compleja y dispersa.
Para ilustrar, en la oración "el gato persigue al ratón", el gato actúa como agente, "persigue" como predicado, y el ratón como paciente, mientras que "el gato negro" sería un constituyente. Esta jerarquía y categorización muestran que el modelo internaliza conceptos lingüísticos fundamentales sin una instrucción explícita para ello, lo que confirma la capacidad de estas redes para interpretar el lenguaje de forma profunda y estructurada.
En modelos más grandes y complejos, con decenas o incluso más de cien niveles, como Megatron, se espera que las capas superiores sean responsables de habilidades estilísticas y conocimientos del mundo que permiten predicciones más sofisticadas, como anticipar palabras faltantes basadas en un contexto amplio. Sin embargo, explorar y entender cómo estos niveles manejan dicha información es un desafío significativo. Estudios recientes en 2024 con modelos multimodales como Claude, capaces de procesar tanto texto como imágenes, sugieren que ciertos “símbolos” neuronales se activan consistentemente ante conceptos concretos — como el Puente Golden Gate — independientemente del idioma o la modalidad de entrada. Este campo, conocido como “interpretabilidad mecanicista”, busca entender y controlar mejor el conocimiento interno de estos sistemas.
Los modelos no solo aprenden lenguaje: también adquieren habilidades que van desde jugar ajedrez hasta escribir código, lo que indica una representación interna multifacética y compleja. Pero, ¿qué tipo de conocimiento del mundo tienen realmente? Para responder a esta cuestión, podemos imaginar una analogía: un algoritmo que predice el flujo de tráfico a partir de datos históricos puede empezar usando reglas simples — como predecir que el tráfico a una hora determinada es similar al mismo momento del día anterior — y luego incorporar correcciones basadas en patrones más complejos, como fines de semana, vacaciones o eventos especiales. Este proceso de refinamiento sucesivo construye un modelo del mundo en capas, desde lo más elemental a lo más abstracto, aproximando cada vez mejor la realidad.
De manera análoga, los Transformers, al procesar enormes cantidades de texto, construyen un modelo no solo del lenguaje sino también del mundo que éste describe, incluyendo patrones generales y excepciones significativas. Todo ello, sin recibir una instrucción directa más allá de la tarea de predecir palabras faltantes. Este impulso a maximizar la predicción lleva al modelo a captar no solo relaciones lingüísticas sino también estructuras y hechos del mundo que le permiten anticipar eventos, resolver problemas o incluso “entender” un texto clínico o un misterio literario al predecir palabras clave.
Es importante comprender que el conocimiento almacenado en estos modelos no es una representación explícita o humana del mundo, sino un entramado de patrones estadísticos y correlaciones complejas distribuidas en distintas capas y conexiones. La localización y extracción de este conocimiento es todavía un campo en desarrollo, y la interpretación mecanicista será fundamental para que podamos, en el futuro, no solo utilizar sino también controlar y evaluar con precisión estas inteligencias artificiales.
Además, la construcción de un modelo del mundo a partir del lenguaje revela que el entendimiento, ya sea humano o artificial, es un proceso gradual y aproximado. Los modelos de lenguaje, a partir de la simple tarea de predecir palabras faltantes, se ven impulsados a comprender estructuras complejas del lenguaje y la realidad, lo que cuestiona la frontera entre el procesamiento estadístico y la comprensión semántica profunda.
¿Qué revela GPT-4 sobre la inteligencia general artificial y cómo se mide su comprensión del mundo?
El estudio de Microsoft sobre GPT-4 en 2023, titulado Sparks of Artificial General Intelligence, presenta una exploración detallada de las capacidades que este modelo alcanza y que apuntan hacia una forma incipiente de inteligencia general artificial (AGI, por sus siglas en inglés). Este concepto, aún difuso y ambicioso, se refiere a una inteligencia artificial capaz de igualar o superar el rendimiento humano en tareas típicas que requieren razonamiento, creatividad, y adaptación al contexto, aunque no necesariamente usando los mismos mecanismos que el cerebro humano.
La investigación parte de la premisa de que no podemos desentrañar completamente los mecanismos internos del modelo, por lo que su análisis se realiza desde el exterior, a través de pruebas diseñadas para evaluar habilidades complejas. Estas pruebas no solo verifican conocimientos académicos, sino que exploran capacidades más personales y cognitivas, como la teoría de la mente, es decir, la facultad para imaginar y predecir los estados mentales de otras personas, y el sentido común, entendido como la habilidad para razonar sobre el mundo cotidiano sin instrucciones explícitas.
Un ejemplo ilustrativo es el escenario planteado sobre Alice y Bob con una carpeta compartida en Dropbox, donde Alice no sabe que Bob ha movido un archivo y no recibe notificación alguna. GPT-4 interpreta correctamente que Alice buscará el archivo en la carpeta original, demostrando comprensión sobre la perspectiva de otra persona y la ausencia de información que esta tiene. Este tipo de razonamiento, aparentemente simple para los humanos, es crucial para evaluar la inteligencia social y cognitiva de la máquina.
Además, el modelo no se limita a reproducir respuestas basadas en datos memorísticos; su desempeño en áreas diversas como matemáticas, programación, visión artificial, medicina y derecho es equiparable al nivel humano, e incluso supera a modelos anteriores. Esto implica que GPT-4 no solo genera textos coherentes, sino que aplica razonamiento lógico y abstracción para resolver problemas inéditos, manejando incertidumbre y extrapolando conocimientos en contextos variados.
Otro aspecto relevante es la capacidad de GPT-4 para ejecutar razonamientos complejos de sentido común, como el ejemplo de apilar objetos variados de forma estable. La respuesta no solo es lógica, sino que refleja un conocimiento implícito sobre propiedades físicas y espaciales, algo que no se expresa en datos explícitos sino que se infiere a partir de la experiencia y el aprendizaje amplio.
En cuanto al razonamiento matemático abstracto, GPT-4 puede construir soluciones generalizadas y simbólicas, transformando problemas numéricos concretos en plantillas formales que permiten resolver problemas similares sin depender de números específicos. Esto muestra un nivel avanzado de comprensión estructural y flexibilidad cognitiva, que trasciende la simple aritmética.
Es fundamental entender que esta inteligencia general artificial no es universal ni perfecta. Al igual que los humanos, que no somos óptimos en todas las tareas, un sistema AGI se evalúa en función de su desempeño en tareas específicas que reflejan la complejidad y diversidad del conocimiento humano. Además, el análisis externo mediante pruebas es por ahora la única vía para comprender sus capacidades, ya que los procesos internos del modelo permanecen en gran parte inaccesibles.
El impacto de estos avances en la sociedad y en el futuro de la interacción humano-máquina es profundo. Evaluar y controlar estas máquinas implica no solo medir su conocimiento, sino también comprender las limitaciones y sesgos inherentes a su diseño y entrenamiento. La integración de la teoría de la mente y el sentido común en máquinas abre nuevas posibilidades para la colaboración y para la resolución de problemas complejos, pero también plantea interrogantes éticos y prácticos sobre la confianza y el control.
Por último, la comprensión de cómo las máquinas interpretan el mundo y a las personas es crucial para diseñar interfaces y sistemas que respondan adecuadamente a las necesidades humanas. Esta simbiosis entre inteligencia artificial y cognición humana redefine no solo la tecnología, sino también nuestra concepción de la inteligencia y la creatividad.
¿Cómo aprenden realmente los modelos de lenguaje como GPT y por qué esto importa?
Los agentes inteligentes construyen modelos del mundo a partir de la observación. Esta capacidad constituye una forma de comprensión: identificar qué situaciones son probables, cuáles son improbables y cómo actuar frente a ellas. Sin embargo, ningún agente puede modelar el mundo en su totalidad; lo que construye es una representación aproximada y funcional, útil para una tarea específica. Lo esencial no es la fidelidad del modelo a la realidad, sino su eficacia operativa.
Existen tres niveles clave: el agente que actúa en el mundo, el modelo interno que guía sus decisiones, y el algoritmo que construye ese modelo a partir de los datos. En los chatbots, estos niveles se reorganizan: como su única vía de interacción es el lenguaje, su modelo del mundo es, en realidad, un modelo del lenguaje. No se trata de representar directamente la realidad, sino de anticipar qué secuencias lingüísticas son plausibles, coherentes o significativas. Lo que entienden no es el mundo, sino los patrones con los que lo describimos.
Este enfoque explica los avances recientes. Se ha descubierto una nueva forma de construir modelos del lenguaje mucho más poderosa, capaz de generalizar a partir de secuencias nunca antes vistas. La clave está en que estos modelos pueden completar frases incompletas, inferir sentidos ocultos y adaptarse a tareas nuevas sin ser diseñados específicamente para ellas. La inteligencia de un agente se mide, en este contexto, por su capacidad para construir representaciones útiles del entorno —o del lenguaje— que informen su conducta. Por eso es fundamental distinguir entre el agente, su modelo y el algoritmo generador: esta trinidad es el núcleo de la arquitectura moderna de inteligencia artificial.
El desarrollo de modelos como GPT nace de una trayectoria que parte de logros en otras áreas del aprendizaje automático. Ilya Sutskever, uno de los líderes de OpenAI, había trabajado antes con Geoffrey Hinton en AlexNet, una red neuronal entrenada para reconocer imágenes que marcó un hito en 2012. Ese avance fue posible gracias a dos factores: una gran base de datos de imágenes (ImageNet) y el uso de GPUs para acelerar el entrenamiento. Años después, el mismo principio fue adaptado al lenguaje.
La estrategia consistió en dividir el entrenamiento del modelo en dos fases. En la primera, llamada pre-entrenamiento, se construyó un modelo genérico del lenguaje a partir de enormes cantidades de texto sin etiquetar, que es barato y abundante. En la segunda, llamada ajuste fino, el modelo fue adaptado a tareas específicas mediante conjuntos de datos cuidadosamente seleccionados, más costosos. Lo verdaderamente revolucionario fue la primera fase: se usó el algoritmo Transformer, que aprende prediciendo palabras faltantes a partir del contexto. Para entrenarlo, se eliminaron palabras al azar de miles de libros inéditos de distintos géneros —aventura, fantasía, romance— y se le pidió al modelo que las adivinara.
El Transformer fue elegido por su capacidad para detectar relaciones entre palabras muy distantes, procesar rápidamente cantidades masivas de texto, aprender de sus errores y, sobre todo, generar texto. Esto último es esencial: el modelo no solo analiza, también produce lenguaje. Este proceso de entrenamiento le permite adquirir una estructura estadística del lenguaje que luego puede ser aplicada a múltiples tareas, incluso aquellas para las que nunca fue explícitamente entrenado.
Los resultados fueron notables: el modelo no solo mejoró en la tarea de predecir palabras, sino que también se adaptó eficazmente a tareas clásicas del procesamiento del lenguaje. En la mayoría de las pruebas superó a métodos anteriores; en las restantes, se desempeñó igual de bien. Lo aprendido de manera genérica se demostró transferible a tareas específicas, reduciendo la necesidad de conjuntos de datos costosos. Esta fue una de las piezas clave que desencadenó una cascada de avances posteriores.
A este modelo lo llamaron Generative Pretrained Transformer: GPT. Su capacidad para aprender de forma generalizada sin partir de cero en cada tarea reconfigura el paradigma del aprendizaje automático. Aquí aparece una diferencia crucial entre las máquinas y los humanos: nosotros somos capaces de transferir aprendizajes entre dominios con una facilidad que las máquinas apenas están comenzando a emular. Mientras un niño aprende el significado de "bicicleta" y "coche", la comprensión de "motocicleta" emerge casi espontáneamente. Esta transferencia rápida y eficiente del conocimiento, conocida como aprendizaje de un solo disparo, ha sido durante mucho tiempo una barrera para las máquinas.
Durante décadas, el reto planteado por Alan Turing —sostener una conversación natural sobre cualquier tema— parecía fuera de alcance por esta razón. Las máquinas requerían millones de ejemplos para cada tarea individual. Hoy, gracias a modelos como GPT, se ha dado un paso importante: no porque entiendan el mundo como nosotros, sino porque comienzan a capturar, en el lenguaje, una estructura lo bastante rica como para simular esa comprensión.
Para entender este proceso en profundidad, es indispensable reconocer que lo que llamamos “comprensión” en estos agentes no es una reflexión consciente ni una representación intencional del mundo, sino una alineación estadística entre señales lingüísticas y patrones observados. Es una inteligencia de segundo orden, fundamentada en correlaciones, no en causas. Y sin embargo, su utilidad práctica es incuestionable.
Lo que estos modelos nos enseñan, en última instancia, es que la inteligencia no depende de reproducir los mecanismos humanos, sino de construir sistemas que, bajo condiciones operativas concretas, puedan desempeñarse con competencia en tareas que antes eran exclusivas de nosotros. Esta diferencia, lejos de disminuir su importancia, redefine los límites de lo posible.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский