En el contexto de modelos de regresión, el proceso de modelado más básico parte de una fórmula en la que una etiqueta recibida se genera de la siguiente manera: t=y+ϵt = y + \epsilon, donde ϵN(0,σ2)\epsilon \sim N(0, \sigma^2). Esto implica que la distribución condicional de tt dado yy es p(ty)=N(ty,σ2)p(t|y) = N(t|y, \sigma^2). Imaginemos que tenemos una colección de datos de entrenamiento con NN puntos, donde las características de entrada son x1,,xNx_1, \dots, x_N y las etiquetas correspondientes son tN=(t1,,tN)t_N = (t_1, \dots, t_N), condicionadas sobre yN=(y1,,yN)y_N = (y_1, \dots, y_N). De acuerdo con la suposición del proceso gaussiano (GP), el modelo conjunto se expresa como p(yN)=N(yN0,K)p(y_N) = N(y_N | 0, K), donde KK es una matriz N×NN \times N cuyos elementos K(n,m)=K(xn,xm)K(n,m) = K(x_n, x_m).

Al combinar la distribución condicional de tt con la distribución conjunta de yy, obtenemos la distribución marginal de las etiquetas tNt_N, que se describe como una distribución gaussiana multivariante de la forma:

p(tN)=N(tN0,LN),p(t_N) = N(t_N | 0, L_N),
donde la matriz LNL_N se define como LN=KN+σ2IL_N = K_N + \sigma^2 I, siendo II la matriz identidad de dimensión NN. Este marco probabilístico es fundamental para entender cómo los modelos de procesos gaussianos permiten hacer inferencias sobre nuevas observaciones.

Ahora, si deseamos predecir la etiqueta correspondiente a un punto de prueba xtestx_{\text{test}}, podemos derivar la distribución condicional p(ttesttN)p(t_{\text{test}} | t_N). El proceso para hacerlo consiste en considerar la distribución conjunta de tN+1=(t1,,tN,ttest)t_{N+1} = (t_1, \dots, t_N, t_{\text{test}}), que está representada como una distribución gaussiana con media cero y una nueva matriz de covarianza LN+1L_{N+1}. Al calcular esta nueva matriz, extendemos la matriz KNK_N añadiendo las covarianzas entre los puntos de prueba y los puntos de entrenamiento, así como la varianza del punto de prueba consigo mismo. A partir de la propiedad de los procesos gaussianos, se obtiene que la media de la distribución condicional es:

μtest=kNTLN1tN,\mu_{\text{test}} = k_N^T L_N^{ -1} t_N,

y la varianza es:

σtest2=kN+1kNTLN1kN.\sigma_{\text{test}}^2 = k_{N+1} - k_N^T L_N^{ -1} k_N.

Estas fórmulas permiten hacer predicciones en un espacio continuo de datos, utilizando la teoría de procesos gaussianos para modelar la incertidumbre.

Cuando trasladamos esta idea al contexto de redes neuronales, un modelo de red neuronal se puede entender como una función y(x;θ)y(x; \theta) determinada por sus parámetros θ\theta. Si consideramos que los parámetros θ\theta tienen un comportamiento aleatorio, la salida y(x)y(x) puede ser vista como un proceso estocástico. En el caso de redes neuronales muy anchas, es decir, cuando el número de neuronas en cada capa es muy grande, el proceso aleatorio que describe la red neuronal tiende a convertirse en un proceso gaussiano (GP).

Por ejemplo, en una red neuronal completamente conectada, podemos observar cómo la salida zz de una capa es una función lineal de las salidas de la capa anterior, z=W(2)yz = W(2) y, donde W(2)W(2) es la matriz de pesos. Si consideramos que los pesos están distribuidos de manera gaussiana, WjkN(0,σW2/d1)W_{jk} \sim N(0, \sigma^2_W / d_1), entonces las salidas de las capas intermedias son también procesos gaussianos, dado que la combinación lineal de variables gaussianas es, de nuevo, una variable gaussiana. A medida que el número de neuronas en la red crece, la distribución de las salidas se aproxima a una distribución gaussiana.

En redes neuronales profundas, este comportamiento se generaliza. Al añadir más capas, las distribuciones de salida de cada capa se mantienen como procesos gaussianos, con la varianza de cada capa disminuyendo conforme el número de neuronas en ella aumenta. Este comportamiento se debe al Teorema Central del Límite, que garantiza que, en el límite de redes muy grandes, las salidas de las neuronas siguen una distribución gaussiana con media cero y varianza determinada por los pesos y las activaciones de las capas anteriores.

Es importante comprender que esta descripción mediante procesos gaussianos no solo es útil en modelos de predicción, sino también para la comprensión de la incertidumbre inherente a las redes neuronales profundas. A medida que se añaden capas y se incrementa la complejidad del modelo, las salidas de la red pueden ser mejor comprendidas en términos de su distribución de probabilidad, lo que permite evaluar la confiabilidad de las predicciones generadas por la red.

Además, las redes neuronales pueden ser tratadas bajo el marco de los procesos gaussianos para explorar su comportamiento en términos de regresión probabilística, donde la inferencia sobre las salidas del modelo se basa en la distribución condicional de los datos de prueba dado el entrenamiento previo. Esta interpretación también proporciona una manera natural de regularizar las redes neuronales, utilizando la estructura de covarianza y las propiedades de los procesos gaussianos para mejorar la generalización.

¿Cómo funciona el aprendizaje por transferencia en redes neuronales profundas y qué implica su uso?

El aprendizaje por transferencia aborda la dificultad de disponer de grandes volúmenes de datos etiquetados para cada tarea específica en aplicaciones reales de machine learning. La idea central es aprovechar el conocimiento adquirido en la solución de un problema —llamado dominio fuente— para aplicarlo en otro problema diferente —dominio objetivo—, incluso cuando ambos dominios difieren en su espacio de características o en la distribución de sus datos. En términos formales, un dominio se define como el par D = (X, P), donde X es el espacio de características y P la distribución marginal sobre estas características. Por su parte, una tarea T se representa como T = (Y, f), donde Y es el espacio de etiquetas y f la función que predice dichas etiquetas.

La transferencia se realiza cuando el dominio o la tarea objetivo difieren del dominio o tarea fuente, y el objetivo es aprender una función adecuada para la tarea objetivo utilizando la información extraída del dominio y tarea fuente. Existen diversas categorías de métodos de transferencia, siendo relevantes para el aprendizaje profundo los enfoques basados en instancias, relaciones, modelos y características.

El aprendizaje basado en instancias utiliza técnicas como la ponderación, selección o aumento de instancias del dominio fuente para mejorar el rendimiento en el dominio objetivo. Por ejemplo, se asignan pesos a las instancias según su relevancia o se generan nuevas instancias por transformaciones (rotación, ruido) para mejorar la generalización. En el aprendizaje basado en relaciones, se aprovechan estructuras o dependencias comunes entre tareas para transferir conocimiento, mediante compartir pesos, adaptar arquitecturas o usar características transferibles.

En el aprendizaje basado en modelos, que es central en deep learning, un modelo preentrenado en un dominio fuente se reutiliza para la tarea objetivo, incluso si ambos dominios no son similares. Por ejemplo, las redes convolucionales (CNN) entrenadas en conjuntos masivos como ImageNet aprenden representaciones que capturan características generales como bordes y texturas, útiles en múltiples tareas. Estas capas iniciales se consideran universales y se mantienen fijas o se afinan con tasas de aprendizaje menores cuando se adaptan a la tarea específica. Las capas profundas, en cambio, suelen ser más específicas y se reentrenan para la nueva tarea.

Un caso paradigmático es la adaptación de un modelo ResNet preentrenado en clasificación de imágenes, donde la última capa totalmente conectada se reemplaza para que coincida con el número de clases del nuevo dominio. Así, se conservan las representaciones útiles y se ajusta la salida a la tarea objetivo con una cantidad menor de datos etiquetados. Esta práctica es ampliamente utilizada y facilita el desarrollo eficiente de modelos para nuevas aplicaciones.

Estudios como el de Yosinski et al. han profundizado en la transferibilidad de características, mostrando que las primeras capas de una CNN tienden a aprender representaciones generales y reutilizables, mientras que las capas superiores son más específicas a la tarea original. Esto fundamenta la estrategia de congelar capas iniciales y reentrenar las superiores para nuevas tareas, optimizando recursos y resultados.

Es fundamental entender que el éxito del aprendizaje por transferencia depende de la relación entre las distribuciones de los dominios fuente y objetivo, así como de la similitud entre las tareas. Aunque las representaciones profundas pueden generalizar, si los dominios o tareas son demasiado divergentes, la transferencia puede resultar ineficaz o incluso perjudicial. Además, la correcta selección de qué partes del modelo congelar o afinar y la cantidad de datos disponibles en el dominio objetivo influyen significativamente en el desempeño final.

Asimismo, el aprendizaje por transferencia no solo ahorra tiempo y datos, sino que también puede aportar una robustez mayor a modelos en escenarios donde la recolección de datos es limitada o costosa. Esto habilita aplicaciones en campos tan diversos como visión por computadora, procesamiento del lenguaje natural o bioinformática, donde la variabilidad de dominios es alta y los datos escasos.