¿Por qué elegir vectores propios principales para la codificación óptima de datos?

La proyección de un vector sobre una función base en una dimensión es un concepto fundamental para entender la reducción dimensional. La máxima proyección ocurre cuando el vector se encuentra en la misma dirección que la función base, pues el valor de la proyección es proporcional al coseno del ángulo entre ambos, alcanzando su valor máximo cuando el ángulo es cero. Esta idea fundamenta la elección de los K vectores propios con los mayores valores propios de la matriz de covarianza ΣXX para codificar los datos en un espacio de dimensión K, minimizando así el error de reconstrucción, que queda expresado como la suma de los valores propios correspondientes a las dimensiones omitidas.

Aunque este resultado es teóricamente óptimo y se basa en una solución convexa con un mínimo global único, en la práctica, cuando se usa la optimización mediante redes neuronales, la búsqueda puede quedar atrapada en extremos locales, dificultando alcanzar esta solución ideal. Por eso, la solución analítica del Análisis de Componentes Principales (PCA) presenta ventajas claras frente a los autoencoders entrenados con métodos de gradiente: existen algoritmos eficientes para el cálculo de vectores propios que pueden ser más rápidos; con suficiente cantidad de datos y una estimación adecuada de la covarianza, la solución es óptima; y finalmente, la representación latente obtenida posee una interpretación intuitiva clara, a diferencia de las redes neuronales que suelen comportarse como cajas negras.

Sin embargo, el PCA tiene una limitación importante: su naturaleza lineal no permite realizar una reducción gradual de la dimensión a través de múltiples etapas, ya que la combinación de matrices lineales puede representarse como una única matriz final, por lo que reducir dimensionalidad en pasos sucesivos no aporta nada distinto a hacerlo en un solo paso. En cambio, los autoencoders con funciones no lineales g(·) permiten una codificación y decodificación sucesiva y gradual, reduciendo progresivamente la complejidad de la representación y permitiendo modelar funciones mucho más complejas.

Cuando las unidades del autoencoder son lineales y la arquitectura tiene forma de cuello de botella, con la dimensión del espacio latente menor que la de los datos originales, y el error se mide como media del error cuadrático, el autoencoder encuentra una representación análoga a la del PCA. La minimización del error durante el entrenamiento obliga a que la matriz de conexión se encuentre en un subespacio generado por los componentes principales de los datos.

La inclusión de funciones no lineales en el autoencoder posibilita una generalización no lineal del PCA, que puede aprender representaciones más poderosas y complejas. No obstante, esto puede llevar a que el modelo memorice el conjunto de entrenamiento sin extraer información útil de la distribución subyacente, un problema de sobreajuste. Para mitigarlo, se pueden aplicar diversas estrategias, como el autoencoder variacional o técnicas de regularización que añaden restricciones al espacio latente para evitar la simple copia de entrada a salida.

Una estrategia particularmente ingeniosa para evitar esta copia trivial es el autoencoder de eliminación de ruido (denoising autoencoder). En lugar de alimentar el autoencoder con datos limpios tanto en entrada como en salida, se introducen datos corruptos en la entrada y se entrena al modelo para que reconstruya los datos originales no corruptos. Este proceso puede interpretarse como un mapeo desde una distribución de datos corruptos hacia la distribución original limpia. Asumiendo que los datos residen en una variedad (manifold) suave y de dimensión inferior, la adición de ruido desplaza los datos principalmente en direcciones ortogonales a esta variedad. El autoencoder de eliminación de ruido aprende a proyectar los datos corruptos hacia el centro de masa de las posibles fuentes limpias, aproximando una proyección sobre la variedad subyacente.

Para implementar un autoencoder en un entorno práctico, como el dataset Fashion MNIST, se definen clases de codificador y decodificador en PyTorch con capas lineales y funciones de activación no lineales (ReLU y sigmoid). El modelo completo es la composición del codificador y decodificador, entrenado para minimizar el error cuadrático medio entre la entrada y la reconstrucción. Ajustando la dimensión del espacio latente, se puede controlar la compresión y estudiar cómo afecta la calidad de la reconstrucción.

Es importante entender que, aunque el PCA ofrece una solución óptima y clara para reducción lineal de dimensión, la complejidad real de los datos suele requerir enfoques no lineales que permitan capturar estructuras más complejas. La capacidad de introducir no linealidades, múltiples capas y regularizaciones hace que los autoencoders sean herramientas más flexibles y potentes. No obstante, la comprensión del PCA como base teórica es fundamental para valorar las ventajas y limitaciones de los métodos más avanzados.

Además, el concepto de variedad o manifold donde residen los datos subyace en muchas técnicas modernas de aprendizaje. La idea de que los datos de alta dimensión se encuentran en estructuras de menor dimensión ayuda a justificar técnicas de reducción dimensional y modelado probabilístico. Entender esta hipótesis permite apreciar por qué añadir ruido puede ayudar a aprender representaciones más robustas y por qué las técnicas de regularización buscan preservar la estructura intrínseca de los datos evitando el sobreajuste.

¿Cómo transforman los modelos Transformer la representación de datos en tareas musicales y de aprendizaje automático?

Los modelos Transformer han demostrado ser fundamentales en el tratamiento de datos, ya sea en representaciones simbólicas como MIDI o en datos de audio, como en el caso de los transformadores de onda y espectrales. En tareas musicales, su uso principal suele estar en la generación de continuaciones de material musical a partir de una semilla inicial. Sin embargo, también se emplean en la creación de variaciones utilizando modelos similares a BERT, los cuales no se enfocan específicamente en la continuación, sino en ofrecer completaciones o alteraciones de una secuencia al descartar algunos de los elementos del input, generando variaciones melódicas, armónicas o rítmicas.

Un aspecto clave en el uso de los modelos Transformer es su capacidad para representar datos de manera eficiente para tareas posteriores, como la adaptación o el aprendizaje rápido, conocido como transferencia de aprendizaje de una sola muestra o pocas muestras. Esto permite reutilizar capas del Transformer con fines diferentes a aquellos para los cuales fue entrenado originalmente, lo que se conoce comúnmente como aprendizaje por transferencia. Por lo general, este tipo de reutilización se lleva a cabo en la última capa de salida del modelo, y tras procesar los datos a través de toda la red, se introducen en una capa final diferente, como una capa de clasificación totalmente conectada o una red neuronal multicapa (MLP), la cual se entrena con el nuevo conjunto de datos manteniendo congelados los parámetros del Transformer.

La reprogramación, por otro lado, implica modificar el input o tanto el input como las capas de salida sin alterar o volver a entrenar las capas intermedias. Este enfoque permite reutilizar una red neuronal existente para tareas distintas, lo que va más allá de simplemente ajustarla a un nuevo dominio. Sin embargo, la reprogramación se asocia a menudo con un propósito malicioso, como la modificación de modelos para realizar tareas que violen el código ético del desarrollador original. A pesar de este uso poco ético, la reprogramación ofrece una visión creativa sobre cómo comprender la representación de redes neuronales y el rendimiento de las tareas.

El aprendizaje por transferencia y la reprogramación son, en este sentido, técnicas estrechamente relacionadas que permiten reutilizar modelos de redes neuronales preentrenados para nuevas tareas. Estas técnicas se basan en el principio de que las redes neuronales, cuando son entrenadas con grandes volúmenes de datos para una tarea en particular, aprenden características que pueden ser útiles para tareas relacionadas. El aprendizaje por transferencia se centra en explotar esta representación aprendida para adaptar un modelo preentrenado a una tarea alternativa, modificando generalmente las últimas capas del modelo y ajustando los parámetros a través del conjunto de datos de la tarea objetivo.

La reprogramación, por su parte, puede ser vista como un método de entrenamiento más eficiente que el aprendizaje por transferencia. En particular, la reprogramación puede no requerir la misma cantidad de datos del nuevo dominio para afinar redes neuronales preentrenadas, lo que permite repasar las redes entre modalidades diferentes, como entre texto e imágenes. Este resultado sugiere que existe un aspecto universal en la capacidad de los modelos Transformer para capturar las similitudes y repeticiones dentro de los datos, algo que opera a través de diferentes dominios y que podría ser una característica básica de la inteligencia artificial, y quizás también de la inteligencia humana.

Si analizamos la representación en el contexto específico de los Transformers, podemos observar que las capas de entrada y salida ofrecen diferentes aspectos de la estructura de los datos que la red es capaz de extraer. La capa final del Transformer crea una incrustación para toda la secuencia de entrada, lo que, en el caso de un modelo de lenguaje, equivale a una representación vectorial de toda la secuencia. Este enfoque es especialmente eficiente en tareas como la de resumir una oración en un solo vector, una tarea que no fue resuelta de manera efectiva hasta la introducción de los Transformers. A pesar de que las redes neuronales recurrentes (RNN) ya permitían generar un vector resumen con el último estado oculto, los modelos Transformer logran capturar con mayor eficacia la esencia de los datos y, por lo tanto, "adivinar mejor la mente del compositor".

La capa de incrustación inicial es también significativa, pues procesa los datos antes de la aplicación de las capas de atención y los posteriores transformadores. El propósito de la incrustación es usar el contexto para encontrar un espacio con una medida de distancia natural que coloque significados similares en ubicaciones cercanas. Este proceso de incrustación extrae información esencial de los datos de entrada, muestra por muestra, y la convierte en vectores donde se pueden detectar similitudes o aplicar atención. Es importante resaltar que la incrustación tiene un papel crucial en el tratamiento de datos multimedia, como imágenes o sonidos. Aunque en ocasiones se aplican conocimientos de procesamiento de señales, como análisis espectral o MFCC, antes de introducir los datos en la red neuronal, estas características diseñadas por el hombre a menudo no son lo suficientemente poderosas como para capturar la estructura detallada de los datos. En el ámbito visual, por ejemplo, las redes convolucionales (CNN) muestran cómo las primeras capas aprenden detectores de bordes y patrones espaciales que recuerdan a los filtros visuales tempranos en el sistema humano. Modelos Transformer como Vision Transformer han logrado filtros similares, si no mejores, al emplear la atención en lugar de las convoluciones, lo que les permite interactuar con los datos de manera más eficiente desde las primeras capas.

Aunque el estudio sobre la aplicación de Transformers en dominios de audio está aún en fases iniciales, los resultados empíricos en tareas de audio y MIDI sugieren que esta arquitectura es importante para la música. Este enfoque se está explorando más a fondo en ejercicios de programación, donde se entrenan modelos predictivos con y sin Transformer, para observar cómo cambia la distribución de los tokens en la capa de incrustación a medida que se emplea la capa de atención.

La sorprendente eficiencia de los Transformers en tareas complejas de aprendizaje automático ofrece una perspectiva interesante sobre qué tipos de relaciones entre los datos e información son gestionadas de manera efectiva por estas arquitecturas. Aunque aún quedan muchas preguntas por resolver sobre las propiedades profundas de los Transformers, es innegable que combinan diversos aspectos del modelado en una sola estructura altamente eficiente.

¿Cómo la integración de 5G, IoT y Aprendizaje Profundo transforma la seguridad y gestión de redes inalámbricas?
¿Cómo influyen la morfología y la reología en las propiedades de los materiales de PU?
¿Cómo se crean texturas escultóricas en crochet?
¿Cómo la reacción racial y la decadencia urbana contribuyen al declive del Rust Belt?