¿Cómo se puede estructurar el aprendizaje profundo desde una perspectiva teórica accesible?

En el creciente campo de la inteligencia artificial, el aprendizaje profundo ha dejado de ser una simple subdisciplina técnica para convertirse en una infraestructura teórica y práctica del pensamiento computacional moderno. Sin embargo, la mayoría de los textos existentes sobre aprendizaje profundo enfrentan una tensión fundamental entre amplitud y profundidad, entre intuición pedagógica y formalismo matemático. Muchos recursos disponibles, aunque excelentes, o bien abruman con un exceso de detalle técnico sin justificación contextual, o bien esquivan las precisiones conceptuales que permiten al lector avanzar hacia una comprensión genuinamente operativa del campo.

Este libro nace precisamente en ese intersticio. El impulso inicial surgió de la experiencia compartida de enseñar un curso de aprendizaje profundo a estudiantes avanzados en la Universidad Duke Kunshan. Lo que comenzó como una revisión de materiales terminó revelando un vacío: no existía un texto que alineara con la necesidad concreta de ofrecer una comprensión funcional y teórica del aprendizaje profundo sin caer en la retórica de la exhaustividad ni en la superficialidad de lo meramente aplicable.

El enfoque adoptado en este volumen responde a esta necesidad de equilibrio. Se privilegia la concisión, la claridad formal y el ritmo conceptual progresivo, sin sacrificar la rigurosidad. Cada parte del libro ha sido diseñada con el objetivo de construir un puente entre las intuiciones fundamentales del aprendizaje automático y las estructuras formales que subyacen al aprendizaje profundo. Desde las arquitecturas neuronales más simples hasta las formulaciones más abstractas como los procesos gaussianos, el lector es guiado por una secuencia lógica y didáctica que refleja la estructura misma del conocimiento.

La estructura general del libro se organiza en seis partes interdependientes. La primera introduce los conceptos elementales de redes neuronales y sus aplicaciones inmediatas. Se trata de una entrada directa al modelado y la optimización, que prioriza la aplicabilidad sin descuidar la intuición matemática detrás de cada técnica. La segunda parte transita hacia el estudio de autoencoders y autoencoders variacionales, estableciendo vínculos explícitos con técnicas estadísticas clásicas como el Análisis de Componentes Principales (PCA), y su versión probabilística.

A continuación, la tercera parte explora arquitecturas específicas que han definido el progreso reciente del campo, incluyendo redes convolucionales, redes recurrentes y transformadores. Cada arquitectura se presenta no solo como una herramienta técnica, sino como una respuesta conceptual a problemas estructurales en el procesamiento de señales, visión, audio y lenguaje natural.

La cuarta parte se dedica a los modelos generativos, con una atención especial a los VAEs, las redes generativas adversarias (GANs), y los flujos normalizantes, culminando en el estudio de modelos de difusión, que actualmente lideran los desarrollos en la generación de contenido artificial. Aquí se establece un puente entre las técnicas generativas modernas y su fundamento teórico en la estadística y la teoría de la información.

En la quinta parte, el enfoque se desplaza hacia los fundamentos teóricos. Se deja de lado el diseño de modelos y su entrenamiento para entrar en una exploración conceptual del aprendizaje profundo como fenómeno estadístico y computacional. Se introducen formulaciones que vinculan redes neuronales con procesos gaussianos, aproximaciones de kernel, y la teoría del aprendizaje, posicionando al lector frente a una perspectiva más abstracta y crítica.

Finalmente, la sexta parte aborda temas emergentes y de relevancia transversal como el aprendizaje por transferencia, la explicabilidad de modelos y el aprendizaje profundo reforzado. Estas temáticas se presentan como extensión natural de las anteriores, pero también como zonas de exploración futura donde convergen la práctica y la teoría.

Es crucial entender que este libro no intenta reemplazar a los textos clásicos, sino ocupar un espacio distinto. Su estilo, deliberadamente cercano al de notas de clase, busca ofrecer un camino directo hacia los conceptos que realmente importan, evitando la redundancia y los rodeos. Está pensado para estudiantes que ya tienen una base sólida en aprendizaje automático y que buscan no tanto una receta para entrenar modelos, sino una forma de pensar con ellos y a través de ellos.

Más allá del contenido explícito del libro, es fundamental que el lector mantenga una actitud activa frente a los conceptos: pensar cómo se relacionan las arquitecturas con los principios estadísticos; preguntarse en qué medida los modelos generativos son realmente modelos del mundo o simplemente artefactos matemáticos eficientes; cuestionar la aplicabilidad de las métricas de evaluación tradicionales en contextos no supervisados. Es igualmente importante reconocer que el aprendizaje profundo no es sólo un conjunto de herramientas computacionales, sino una propuesta epistemológica: una manera de representar, abstraer y generar conocimiento a partir de los datos.

¿Cómo la Inteligencia Artificial puede modelar la música?

En el contexto de la generación de música mediante redes neuronales recurrentes (RNN), la integración de varios aspectos de la interpretación musical resulta clave para desarrollar modelos que no solo imiten, sino que también ofrezcan una performance expresiva. La generación de música mediante el uso de MIDI, basado en secuencias de eventos, permite una aproximación precisa y controlada para capturar la esencia de la interpretación humana.

El flujo de datos secuenciales de música puede desglosarse en una serie de elementos derivados del estándar MIDI (Interfaz Digital de Instrumentos Musicales), tales como: eventos de "note-on" (indican el inicio de una nota), eventos de "note-off" (marcan el fin de la nota), cambios de velocidad (que reflejan la dinámica de la ejecución), desplazamientos temporales (que representan los intervalos entre eventos), y cambios de control, como los asociados al pedal del piano. En este entorno, la velocidad de la nota, que varía en una gama de 128 posibles valores, los 88 teclas del piano, y varios incrementos de tiempo permiten establecer un extenso vocabulario para el modelo, que se construye sobre esta base de eventos.

Las redes neuronales recurrentes (RNN) emplean un esquema de tokenización tipo MIDI, donde cada paso se representa mediante un vector de 413 dimensiones, con un código único (one-hot) para cada posible evento, incluyendo las notas, sus velocidades, y los desplazamientos temporales. Esta representación de eventos secuenciales es fundamental para que la RNN sea capaz de aprender patrones musicales complejos y producir composiciones que no se limiten a replicar, sino que también muestren creatividad en la ejecución.

La base de datos sobre la que se entrena el modelo es fundamental. En este caso, se utiliza el conjunto de datos del Concurso de Piano Yamaha, que comprende aproximadamente 1,400 archivos MIDI, los cuales fueron generados a partir de las grabaciones de pianistas clásicos altamente capacitados. Estos datos incluyen interpretaciones con matices de tiempo (rubato) y cambios en la dinámica (velocidades de las notas), lo que permite que el modelo aprenda no solo a reproducir secuencias de notas, sino también a captar las sutilezas de una interpretación humana.

Un aspecto crucial en el entrenamiento del modelo es el uso de la técnica de "teacher forcing", que implica alimentar el modelo con el resultado correcto durante el entrenamiento para acelerar la convergencia y evitar desviaciones. Sin embargo, este enfoque presenta una limitación: al basarse en los datos entrenados, puede restringir la capacidad del modelo para innovar y adaptarse a variaciones musicales fuera del conjunto de entrenamiento. En el contexto de modelos generativos que buscan innovar en lugar de replicar, esto puede reducir la creatividad de la máquina, aunque a la vez retenga un nivel de regularidad propio del estilo musical.

La generación de la salida musical también se mejora mediante el uso de técnicas como la "búsqueda de haz" (beam search), que permite al modelo considerar múltiples secuencias posibles en lugar de elegir solo la más probable en cada paso. Al mantener varias opciones de secuencias (llamadas "haz") y seleccionar la de mayor probabilidad conjunta, el modelo consigue evitar resultados repetitivos y de baja entropía. Esta técnica, combinada con la búsqueda estocástica de haz, introduce una dosis de aleatoriedad que permite diversificar las salidas generadas, eliminando repeticiones y mejorando la variedad musical.

Sin embargo, uno de los mayores retos en la generación de música automatizada es la falta de control sobre lo que se genera. Para superar esta limitación, se introduce el concepto de "condicionamiento". Mediante el condicionamiento, el modelo puede recibir señales externas adicionales que influyen directamente en la música que genera. Estas señales pueden representar diferentes aspectos musicales, como el compositor, el período histórico, la tonalidad, el tempo, o incluso la geografía y época de nacimiento del compositor, reflejando influencias regionales en la música.

El condicionamiento se puede extender aún más, incluyendo información como la tonalidad mayor o menor, el tempo extraído de los títulos de las obras musicales, y las variaciones en la dinámica y volumen, controladas por las condiciones de velocidad. Además, el "posicionamiento relativo" es un tipo de condicionamiento que proporciona información sobre la posición de un segmento de música dentro de una obra más amplia, lo cual es clave para identificar elementos como comienzos, finales o clímax en una composición.

Es importante destacar que, aunque la escasez de datos de control puede ser un obstáculo en el entrenamiento del modelo, un grado moderado de sobreajuste (overfitting) podría ser tolerado dentro del contexto creativo. Este tipo de sobreajuste podría incluso conducir a lo que se denomina "citas estilísticas" o préstamos musicales, lo cual no solo refleja una práctica humana común, sino que también podría generar piezas musicales interesantes que se adhieran a un estilo particular.

Cuando se busca que el modelo no solo replique patrones sino que también sea capaz de innovar y adaptarse a nuevas formas musicales, es crucial encontrar el equilibrio adecuado entre sobreajuste y creatividad. La musicalidad generada debe ofrecer algo nuevo, pero también estar anclada en las reglas y estructuras que definen los diferentes estilos musicales. La capacidad de un modelo de aprender y adaptarse a variaciones estilísticas podría ser la clave para lograr una verdadera innovación musical en el ámbito de la inteligencia artificial.

¿Cómo se relacionan las distribuciones estacionarias, la tasa de entropía y la tasa de información en los procesos estocásticos?

A través de suficientes iteraciones, emerge una distribución estacionaria. Denotada como π, alcanzar un estado estacionario significa que la probabilidad de visitar cualquier estado se mantiene sin cambios en los pasos de transición adicionales. Esto se expresa matemáticamente como π = Aπ, siendo A la matriz de transiciones A = [aij]. La tasa de entropía de un proceso aleatorio se define como la entropía promedio por símbolo en una secuencia de mediciones, que también equivale a la entropía de innovación o la entropía de una variable aleatoria condicionada a su pasado. Dada una secuencia de mediciones aleatorias Xn = {X1, X2, ..., Xn} de un proceso (X) = {X1, X2, ..., Xn, ...}, existen dos definiciones de la tasa de entropía:

Entropía promedio por símbolo: $H_r(X) = \lim_{n \to \infty} \frac{H(Xn)}{n}$ .
Entropía de innovación: $H_r' = \lim_{n \to \infty} H(Xn|Xn-1)$ .

Estas dos definiciones son trivialmente equivalentes cuando los eventos son independientes, dado que $H(Xn) = nH(X)$ . Para un proceso estacionario, dado que $H(Xn) = n \cdot H(Xi|Xi-1)$ , y utilizando la media de Cesáro, si $a_n \to \sum a$ y $b_n = \frac{1}{n} \sum_{i=1}^{n} a_i$ , entonces $b_n \to a$ , obtenemos que $H_r'(X) \to H_r(X)$ .

Las expresiones para la entropía de la distribución estacionaria y la tasa de entropía en una cadena de Markov pueden derivarse de la definición de entropía condicional:

$H(X) = \lim_{n \to \infty} H(Xn|Xn-1) = H(X2|X2)$ .

Dado que, por definición, $P(X2 = sj | X1 = si) = a_{ij}$ , la entropía y la tasa de entropía se dan por las siguientes expresiones:

H(S) = H(\pi) = -\sum_{i=1}^{N} \pi_i \log_2(\pi_i)

H_r(S) = H_r(A) = -\sum_{i=1}^{N} \pi_i \sum_{j=1}^{N} a_{ij} \log_2(a_{ij})

La tasa de información (IR) combina las nociones de entropía y tasa de entropía para explorar cómo se propaga la información a lo largo del tiempo en un proceso estocástico. IR se define como la diferencia entre la entropía de la distribución estacionaria y la tasa de entropía en un proceso estocástico, lo cual es equivalente a la información mutua entre los estados pasados y futuros. En el caso de un proceso de Markov, la dependencia del pasado se limita al estado actual, con IR dado por:

IR(S) = I(St+1, St) = H(\pi) - H_r(A)

Para series temporales estacionarias generales, esta definición también puede extenderse a cualquier duración pasada, vista como la información que pasa a través del tiempo medida en términos de la información mutua entre la muestra presente “tal como está←−” y su distribución cuando se considera su pasado →−.

Al denotar $Xn = (..., Xn-2, Xn-1)$ como el pasado de $Xn$ , y $Xn = (Xn+1, Xn+2, ...)$ , podemos definir varias medidas para capturar la forma en que la información pasa a través del tiempo en un proceso estacionario (invariante al desplazamiento) (Abdallah y Plumbley, 2012):

Tasa de información hacia atrás: $IR(X) = \rho \mu = I(Xn, Xn)$ .
Tasa de información predictiva: $PIR(X) = b\mu = I(Xn, Xn), Xn)$ .

En conjunto con la entropía condicional de la muestra presente dada tanto su pasado como su presente $r\mu = H(Xn|←− → Xn), Xn)$ , también llamada “entropía de borrado”, podemos resumir las relaciones estadísticas entre el pasado, el presente y el futuro como se muestra en la Figura 14.2. La tasa de información nos permite considerar la ventaja de hacer predicciones, o en otras palabras, la reducción de la incertidumbre que uno podría tener al considerar el siguiente resultado en un proceso aleatorio al hacer una predicción, en comparación con considerar solo las estadísticas de la distribución estacionaria. La tasa de información predictiva captura la diferencia en la tasa de información entre la predicción de más de un paso en el futuro y la tasa de entropía de un solo paso, como mostramos a continuación.

Por ejemplo, si consideramos una cadena de Markov que se mueve repetidamente del estado 1 al estado N, con una probabilidad despreciable de saltar entre estados no adyacentes, tal situación puede describirse mediante una matriz A que es casi diagonal (los elementos no diagonales serán muy pequeños). Se puede verificar que para tal matriz, $H_r(A) \approx 0$ y IR será cercano a la entropía del estado estacionario $IR \approx \log_2(N)$ . Esta es la tasa de información máxima para tal proceso, lo que demuestra que un proceso tan predecible tiene una alta dependencia de su pasado.

Si por el contrario, la matriz A es completamente mezclante con $a_{i,j} \approx \frac{1}{N}$ , entonces la distribución estacionaria será $\pi \approx \frac{1}{N}$ y la entropía y la tasa de entropía serán las mismas $H(S) = H_r(A) = \log_2(N)$ . Esto da como resultado un IR cercano a cero, lo que significa que el conocimiento del paso anterior no proporciona casi nada acerca del siguiente paso. Tal proceso es muy impredecible.

Aplicar la noción de IR a los procesos de Markov puede orientar la elección de procesos de Markov en términos de sus propiedades predictivas o la sorpresa promedio que dicho proceso conlleva. La medida de tasa de información predictiva para una cadena de Markov se da como:

PIR(S) = I(St+1, St|St-1) = I(St+1, (St, St-1)) - I(St+1, St-1)

= H_r(A^2) - H_r(A)

Considerando el ejemplo previo de un proceso repetitivo completamente secuencial con $A \approx I$ como matriz diagonal, se encuentra que dado que $H_r(A) \approx H_r(A^2)$ , el PIR resultante es aproximadamente cero. Entonces, en términos de considerar la información mutua para una predicción de un paso dada el pasado, dado que el proceso es casi determinista, conocer el pasado determinará tanto el siguiente como el siguiente paso, por lo que hay poca información que pase del presente al futuro cuando se conoce el pasado.

La tasa de información predictiva también puede extenderse a procesos no lineales y no-Markovianos, considerando modelos como RNN, LSTM, series temporales utilizando CNNs o Transformadores. Esto requiere medir la entropía del error de predicción frente a la entropía del proceso cuando no se tiene conocimiento de la estructura temporal, o en otras palabras, cuando las muestras se consideran como i.i.d. Lo que es común en estos modelos es que la estructura de los datos se representa en términos de estados latentes, como las activaciones de las capas ocultas en redes neuronales.

¿Cómo se aplica el valor de Shapley a la distribución justa de activos?

El valor de Shapley se construye promediando la contribución marginal de un jugador a cada posible coalición $S$ . Este valor se emplea para repartir de manera justa las ganancias entre los jugadores de un juego cooperativo. La importancia de este valor radica en su capacidad para dar cuenta de la sinergia que se genera cuando los jugadores trabajan en conjunto, lo que permite una distribución más equitativa que el simple reparto de las ganancias individuales.

El valor de Shapley resuelve diversos casos fundamentales. En primer lugar, cuando los valores de las coaliciones son iguales o superiores a la suma de los valores individuales, se asegura una asignación justa, reconociendo la sinergia entre los jugadores. En segundo lugar, en los casos donde la suma de los valores de los agentes no negativos excede el valor total de la gran coalición, el valor de Shapley ayuda a ajustar la distribución para que sea coherente con la capacidad total de la coalición. Finalmente, cuando se utiliza el valor de Shapley en contextos como el método SHAP, es posible manejar valores negativos, lo que significa que algunos agentes pueden restar valor al total en lugar de sumarlo, un caso que resulta fundamental cuando se analiza la contribución de características en modelos de inteligencia artificial explicable.

Un ejemplo clásico de la aplicación del valor de Shapley en la distribución de activos se encuentra en los problemas de quiebra, donde las demandas de los agentes superan los activos disponibles para la distribución. Este tipo de situación se ve ejemplificado en el "Problema del Garment Contestado" del Talmud Judío, que presenta un dilema sobre cómo repartir una prenda entre dos personas que tienen reclamaciones contradictorias sobre ella. En este caso, la primera persona afirma que la prenda le pertenece en su totalidad, mientras que la segunda reclama la mitad. De acuerdo con el principio de Shapley, la solución justa es repartir el valor de la prenda de forma proporcional a las reclamaciones de los individuos, teniendo en cuenta que, aunque ambos jugadores reclaman, sólo la mitad de la prenda está en disputa. Así, la división final resultará en tres cuartas partes para el primer reclamante y una cuarta parte para el segundo.

Otro ejemplo relevante es el "Run to the Bank" o "Carrera al Banco". En este escenario, los reclamantes llegan de forma aleatoria a un banco para retirar sus reclamaciones. El primero en llegar recibe su reclamo completo, mientras que el siguiente puede no recibir nada si ya no queda valor por distribuir. En este contexto, el valor de Shapley puede ser utilizado para calcular una distribución justa promedio, considerando todas las posibles secuencias de llegada. Por ejemplo, si el primer reclamante toma el total disponible y el segundo reclamante no recibe nada, la distribución de valores sería 1 para el primero y 0 para el segundo. Si el orden de llegada es el inverso, la división sería 0.5 para cada uno. El valor de Shapley promedia estas situaciones para llegar a una distribución justa de los recursos.

La computación de los valores de Shapley puede llevarse a cabo utilizando dos enfoques: basado en subconjuntos y basado en permutaciones. En el enfoque basado en subconjuntos, se calcula la contribución marginal de un jugador $i$ en una coalición $S$ , lo que permite determinar su valor dentro de la coalición. En el enfoque basado en permutaciones, se explora el orden de llegada de los jugadores y se evalúa el valor derivado de la inclusión de un jugador en la coalición en función del orden en que se incorporó. La complejidad de ambos enfoques varía: el enfoque basado en subconjuntos tiene una complejidad de $O(2^M)$ , mientras que el basado en permutaciones es de $O(M!)$ .

Un ejemplo sencillo para ilustrar el cálculo de los valores de Shapley es el siguiente: supongamos un juego caracterizado por las siguientes funciones de valor: $v(\{1\}) = 100$ , $v(\{2\}) = 125$ , $v(\{3\}) = 50$ , $v(\{1, 2\}) = 270$ , $v(\{1, 3\}) = 375$ , $v(\{2, 3\}) = 350$ , $v(\{1, 2, 3\}) = 500$ . Al calcular el valor marginal de cada jugador en función de su contribución a las coaliciones posibles, obtenemos los valores de Shapley para cada jugador en el juego, lo que proporciona una distribución justa de los pagos entre los jugadores.

El valor de Shapley también tiene aplicaciones en el campo de la inteligencia artificial explicable, donde se utiliza en el cálculo de SHAP (Shapley Additive Explanations). Este enfoque asigna a cada característica de un modelo de predicción el cambio en la predicción esperada al considerar esa característica, permitiendo explicar de manera clara cómo las distintas características contribuyen al resultado final del modelo. Los valores de SHAP no solo cumplen con la propiedad de precisión local (es decir, la suma de las contribuciones de las características es igual a la predicción del modelo), sino que también satisfacen las propiedades de consistencia y falta de información, lo que los hace fundamentales para la interpretabilidad de modelos complejos de inteligencia artificial.

Además de los valores de Shapley clásicos, existe una variante conocida como Kernel SHAP, que resuelve el problema de optimización para encontrar un modelo de atribución que minimice la pérdida entre el modelo real y el modelo aproximado por Shapley. Esta técnica se utiliza especialmente cuando el número de características o jugadores es grande y las computaciones exactas de los valores de Shapley resultan demasiado costosas.

Es importante destacar que los valores de Shapley son cruciales no solo para la distribución justa de recursos en juegos cooperativos, sino también en ámbitos como la economía, el análisis de decisiones y la inteligencia artificial, donde la equidad y la transparencia son esenciales. A medida que los modelos de IA se vuelven más complejos, contar con métodos como SHAP ayuda a asegurar que las decisiones del modelo sean comprensibles y justas para los usuarios finales.

¿Es más caro el streaming que comprar contenido?
¿Cómo afrontar la reparación de electrodomésticos y servicios en el hogar en Japón?
¿Qué se debe saber sobre la subasta de atún en Toyosu y la cultura del sushi en Japón?
¿Cómo los modelos digitales pueden transformar el desarrollo urbano y la arquitectura en el futuro cercano?