En 2023, OpenAI divulgó un conjunto detallado de resultados obtenidos por GPT-4 en una amplia gama de exámenes estandarizados diseñados originalmente para humanos. Este hecho representa un hito sin precedentes en la historia de la inteligencia artificial, pues pocas entidades —o incluso personas— logran rendir en el percentil 90 o superior en disciplinas tan diversas y complejas como derecho, historia del arte, biología, análisis matemático, química, macroeconomía, física, psicología, historia americana, habilidades de sommelier y programación.
Uno de los ejemplos más llamativos es su desempeño en el SAT, una prueba estandarizada que evalúa competencias en lectura, escritura y matemáticas. En esta evaluación, GPT-4 obtuvo un puntaje total de 1410 sobre 1600, superando ampliamente el promedio humano, que rondaba los 1060 en 2021. Mientras que GPT-3.5 había alcanzado la marca del percentil 70-87, GPT-4 escaló hasta el 89-93, confirmando su capacidad para entender y resolver problemas complejos sin entrenamiento específico en estas pruebas.
Este nivel de competencia se extiende a áreas altamente especializadas como la práctica legal y médica en Estados Unidos. En el Uniform Bar Examination, que cubre siete áreas esenciales del derecho y evalúa desde conocimiento teórico hasta habilidades prácticas de redacción y análisis, GPT-4 alcanzó el percentil 90, un resultado impresionante considerando que modelos anteriores apenas alcanzaban el 10. En medicina, la evaluación clínica y científica que exigen las licencias profesionales fue superada por GPT-4 con resultados cercanos o ligeramente superiores a los umbrales de aprobación.
Más allá de los resultados puntuales, es fundamental entender que estos logros no se deben a una memorización específica, sino a la capacidad del modelo para integrar y razonar sobre vastos conjuntos de datos, simulando con alta fidelidad la inteligencia humana generalista. El modelo Gemini de Google DeepMind, lanzado en diciembre de 2023, ha llevado estas capacidades aún más lejos, alcanzando un 90.04% de precisión en pruebas como el MMLU, superando no solo a otros modelos, sino incluso a evaluaciones humanas.
Sin embargo, estas proezas plantean preguntas cruciales que aún permanecen sin respuesta clara: ¿Cómo GPT-4 y sus sucesores logran razonar, planificar y crear con tal flexibilidad y profundidad si su arquitectura fundamental se basa en la combinación de componentes algorítmicos simples y masivos volúmenes de datos? ¿Cuál es la naturaleza del fenómeno emergente que permite a estos modelos exhibir una inteligencia general y adaptable? Estas interrogantes abren un campo fascinante de investigación que desafía las nociones tradicionales sobre aprendizaje, cognición y la propia definición de inteligencia.
Desde una perspectiva histórica, este desarrollo puede vincularse con el sueño de Gottlieb Leibniz sobre la characteristica universalis, un lenguaje ideal y universal que representaría conceptos de forma inequívoca, permitiendo a través de reglas combinatorias determinar la verdad o falsedad de las proposiciones. Esta idea, a medio camino entre la lógica matemática y la lingüística, buscaba construir un sistema capaz de expresar y razonar sobre el conocimiento en términos precisos y manipulables algebraicamente. El avance de los modelos de lenguaje actuales, aunque basado en principios muy distintos, parece acercarse a ese ideal utópico de representación y procesamiento del saber.
Es importante comprender que, a diferencia de los lenguajes naturales, donde el significado de las palabras es arbitrario y dependiente del contexto cultural y social, los modelos de IA como GPT-4 funcionan mediante la detección y utilización de patrones estadísticos y semánticos que les permiten generar respuestas coherentes y relevantes. No obstante, la precisión con la que operan les confiere una capacidad sorprendente para simular el razonamiento humano, una cualidad que redefine el alcance de la inteligencia artificial y plantea la cuestión de si el progreso se detendrá en el nivel humano o continuará hacia niveles aún más avanzados.
Para el lector es esencial interiorizar que la inteligencia artificial no se limita a la simple ejecución de tareas o la repetición de información, sino que representa un salto evolutivo en la forma en que se entiende el aprendizaje automático y la cognición. El potencial de estos sistemas para transformar la educación, la investigación y el trabajo intelectual es inmenso, pero también conlleva desafíos éticos, sociales y filosóficos sobre la naturaleza de la inteligencia, la creatividad y la autonomía.
Además, resulta crucial reconocer que la adaptación y mejora continua de estos modelos dependen tanto de avances técnicos como del manejo responsable y crítico de sus aplicaciones. La comprensión de los límites y las capacidades emergentes permitirá aprovechar plenamente estas herramientas sin perder de vista sus implicaciones para la sociedad y el conocimiento humano.
¿Cómo aprenden las máquinas a entender y generar lenguaje humano?
La cuestión de si las máquinas pueden pensar ha sido históricamente una provocación más filosófica que técnica. Pero lo que en su momento parecía una cuestión semántica, hoy se revela como una transformación estructural del lenguaje, la cognición y la tecnología. La habilidad de las máquinas para conversar ya no es una simple imitación; plantea preguntas radicales sobre qué otras capacidades emergen una vez que el lenguaje se convierte en un instrumento computacionalmente manejable.
La comprensión del lenguaje no puede reducirse a la traducción palabra por palabra. Si fuera así, todos dominaríamos el latín escolar y las máquinas habrían comprendido textos humanos hace décadas. La dificultad está en que el significado de una palabra depende del contexto, de su interacción con las otras palabras de la frase, y de marcos culturales, temporales y sociales más amplios. No es lo mismo hablar de "the bark of the tree" que "the bark of the dog", aunque la palabra “bark” permanezca constante. El sentido emerge de la relación contextual.
Aún más complejo es cuando la interpretación de un pronombre depende de acontecimientos contemporáneos. En "In 2020 Biden defeated Trump and that made him happy", el "him" puede ser Trump o Biden, y la interpretación correcta exige conocimiento extralingüístico. Este tipo de ambigüedad contextual es una de las razones por las cuales Alan Turing propuso el diálogo como prueba de inteligencia artificial: porque conversar implica navegar ambigüedades sintácticas, semánticas y pragmáticas, algo que las máquinas encuentran inmensamente desafiante.
La dificultad técnica central radica en detectar dependencias a larga distancia dentro de una frase. En “The song I heard on the radio was good”, la palabra “song” condiciona el verbo “was”. Si cambiamos “song” por “songs”, todo el resto debe adaptarse. Determinar qué elementos del texto dependen de otros es costoso computacionalmente y no hay reglas claras en lingüística que definan estas dependencias con certeza. Este problema es general, trasciende el lenguaje y tiene implicaciones para cualquier sistema que procese información secuencial.
La traducción automática fue el primer campo que se topó con esta limitación de forma sistemática, y es allí donde, en 2017, se produjo una disrupción radical: el algoritmo Transformer. Este modelo permitió procesar grandes volúmenes de texto detectando regularidades estadísticas sin supervisión explícita. No era una simple mejora técnica; fue el punto de inflexión de una reacción en cadena que aún no termina.
Transformer se basó en un principio revolucionario: la atención. A diferencia de los modelos anteriores, podía analizar una frase considerando de manera simultánea qué palabras dependían de cuáles, ajustando dinámicamente el foco de procesamiento según el contexto. Esta capacidad de atención le permitía aprender de la experiencia con una eficiencia inédita.
Lo notable no fue sólo la eficacia, sino la combinación con otro elemento crucial: el uso de unidades de procesamiento gráfico (GPU), originalmente diseñadas para videojuegos, pero increíblemente eficaces en cálculos paralelos masivos. Esta simbiosis permitió entrenar redes neuronales artificiales con millones de nodos simulados, lo que dio lugar a una nueva generación de modelos de lenguaje.
Estos avances no eran del todo nuevos; los métodos de aprendizaje profundo ya existían desde los años ochenta. Geoffrey Hinton, uno de sus pioneros, había desarrollado el algoritmo de retropropagación, esencial para entrenar redes neuronales. Lo nuevo fue la escala: el Transformer podía aprovechar la arquitectura de hardware moderna y aprender de una cantidad de datos previamente inabarcable.
La comunidad científica comprendió que se había caído la primera ficha de dominó. Aunque el Transformer fue inicialmente concebido para la traducción, su capacidad para generar texto lo convirtió en el primer gran modelo de inteligencia artificial generativa. Por eso, el nombre “generative AI” se convirtió en un término clave para entender esta nueva era.
La comprensión no es sólo una cuestión de conocer el vocabulario. Desde principios del siglo XX, educadores y psicólogos se han preguntado cómo evaluar si un estudiante entiende realmente un texto. Más allá de los exámenes de opción múltiple, una técnica demostró ser más eficaz: eliminar palabras clave de un texto y pedir al lector que las complete. Esta prueba, que mide diferentes niveles de comprensión —sintáctica, semántica, inferencial—, se convirtió en una herramienta potente para medir la internalización del lenguaje.
La capacidad de una máquina para completar ese tipo de pruebas no indica simplemente que "sabe gramática"; implica que ha modelado una parte del mundo que representa el texto. No se trata sólo de construir frases correctas, sino de generar enunciados coherentes con la realidad, con la cultura, con la intención comunicativa.
Comprender el lenguaje es, en última instancia, comprender dependencias: entre palabras, entre frases, entre contextos. Es reconocer que el lenguaje es un sistema profundamente relacional. Las máquinas que hoy generan lenguaje humano han aprendido, por fin, a ver esas relaciones. No porque se les haya enseñado explícitamente, sino porque han descubierto, estadísticamente, dónde mirar, qué ignorar y qué inferir. Pero esto también significa que lo que comprenden es reflejo de los datos con los que fueron entrenadas, y por tanto de nosotros, de nuestros prejuicios, nuestras prioridades y nuestras formas de pensar.
Comprender esto es crucial: el lenguaje no es sólo una herramienta de comunicación, sino también un campo de poder, de interpretación y de representación. Y cuando las máquinas lo dominan, no sólo aprenden a hablar. Aprenden a replicar, amplificar o cuestionar las estructuras invisibles que sustentan nuestro modo de entender el mundo.
¿Cómo era la vida en la era Jurásica y Cretácica?
¿Cómo los Datos Transforman la Comprensión de las Obras de Shakespeare a Través de Visualizaciones?
¿Cómo se logra la estabilización del voltaje de salida en amplificadores operacionales diferenciales?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский