Le reti neurali rappresentano uno degli strumenti più potenti per approssimare funzioni complesse a partire da un insieme di dati. La loro struttura, composta da strati di unità (neuroni) interconnessi, permette di elaborare dati e fare previsioni. Ogni strato della rete è costituito da una serie di neuroni che, attraverso funzioni di attivazione, decidono se trasmettere o meno l'informazione ai livelli successivi. Ma come avviene esattamente l'apprendimento? Qual è la relazione matematica che descrive il comportamento ottimale di una rete neurale?

Una rete neurale, in termini matematici, può essere vista come un modello che cerca di apprendere una funzione sconosciuta ff che associa ogni input xix_i a un output yiy_i, per un dato insieme di campioni D={[x1,,xN],[y1,,yN]}D = \{ [x_1, \ldots, x_N], [y_1, \ldots, y_N] \}. Ogni elemento di questo insieme di campioni è processato dalla rete che, passando attraverso vari strati, cerca di approssimare ff. Il modello risultante dipende dai pesi (matrici di pesi) che collegano ogni livello della rete.

Durante la fase di addestramento, i pesi della rete vengono modificati in modo iterativo in base a un "errore" calcolato, che misura la differenza tra l'output prodotto dalla rete e l'output desiderato. Questo errore può essere calcolato tramite una funzione di perdita, come la norma L2 o la norma euclidea, e l'ottimizzazione dei pesi viene effettuata per minimizzare questa perdita. La minimizzazione avviene tramite metodi numerici come il gradiente discendente, che agisce sui pesi in modo da ridurre l'errore nelle successive iterazioni.

La dimensione dell'input della rete è determinata dalla natura dei dati di ingresso, mentre la dimensione dell'output dipende dal problema che si vuole risolvere. Ad esempio, per un problema di regressione, l'output avrà una dimensione pari a uno, mentre per un problema di classificazione l'output avrà una dimensione pari al numero di categorie in cui si desidera suddividere i dati.

Un aspetto cruciale in questo processo di ottimizzazione è la questione dell'approssimazione. Se il campione di addestramento è sufficientemente grande e variegato, la rete neurale è in grado di approssimare bene la funzione desiderata. Il processo di apprendimento non si limita a produrre una semplice stima dei valori desiderati, ma cerca di minimizzare una funzione di rischio, RR, che dipende dalla scelta di un modello FF. Questa funzione di rischio è calcolata integrando la funzione di perdita sui dati di addestramento, ma poiché non possiamo conoscere la distribuzione esatta dei dati, la rete minimizza la perdita media su ciascun campione nel set di addestramento.

L’obiettivo finale del processo di apprendimento è ottenere una stima F^\hat{F} che soddisfi F^(xi)=yi\hat{F}(x_i) = y_i per tutti i dati di addestramento. In altre parole, si cerca di trovare il miglior approssimatore della funzione sconosciuta ff. Questo approccio porta naturalmente alla definizione di errore, che è dato dalla differenza tra l'output atteso E(Yx)E(Y | x) e l'output prodotto dalla rete F^(x)\hat{F}(x).

Un altro aspetto importante che emerge dall'analisi del comportamento di una rete neurale è la dicotomia tra "bias" e "varianza". Il bias è un errore sistematico che si verifica quando la rete non è in grado di apprendere correttamente la funzione target, mentre la varianza si riferisce alla sensibilità del modello ai cambiamenti nei dati di addestramento. Un modello con un bias elevato non è in grado di catturare la vera relazione nei dati, mentre un modello con alta varianza, sebbene possa apprendere bene i dati di addestramento, rischia di non generalizzare bene a nuovi dati, portando a fenomeni come l’overfitting.

La comprensione di questi concetti è cruciale per ottimizzare il processo di apprendimento. L'equilibrio tra bias e varianza è fondamentale per costruire modelli che siano sia accurati che robusti. La scelta dei dati di addestramento, la struttura della rete e il tipo di funzione di attivazione sono tutti fattori che influenzano in modo significativo le performance della rete. La strategia ideale è quella di minimizzare sia il bias che la varianza, affinché la rete possa generalizzare bene a nuovi dati senza incorrere in errori sistematici o sovraccaricare il modello con rumore.

Alla fine, una rete neurale ben progettata e ben addestrata deve riuscire a fornire previsioni accurate non solo sui dati di addestramento, ma anche su dati mai visti prima. Per questo motivo, l'analisi della performance e l'ottimizzazione del modello sono processi che richiedono una continua attenzione. La scelta della funzione di perdita, l'architettura della rete, e le tecniche di regularizzazione sono strumenti essenziali per migliorare le capacità predittive di una rete neurale.

Come raggiungere il minimo globale: l'analisi delle componenti principali e la regressione dei minimi quadrati ordinari

Il concetto di minima locale e globale gioca un ruolo cruciale nell’analisi dei metodi di ottimizzazione e nei modelli statistici, in particolare quando si lavora con reti neurali e metodi di regressione. Il problema del minimo globale è fondamentale per comprendere il comportamento delle funzioni di errore in modelli complessi, come quelli che usano perceptroni multistrato con strati nascosti lineari. Quando si cerca di minimizzare l'errore in un modello, una delle sfide più comuni è determinare se l’algoritmo di discesa del gradiente converge verso un minimo globale o se si arresta in un minimo locale.

Il caso di un perceptrone multistrato con uno strato nascosto lineare è particolarmente interessante perché, pur limitando le capacità della rete a funzioni lineari, offre una visione chiara di come le variabili interagiscono negli strati nascosti. In particolare, l'errore quadratico, una misura comune della dissonanza tra le previsioni del modello e i dati osservati, viene utilizzato per misurare il successo dell'apprendimento della rete.

Il modello in questione può essere descritto come una rete con uno strato di ingresso di n unità, uno strato nascosto di p unità (dove p è minore di n) e uno strato di uscita anch'esso di n unità. I dati di ingresso, rappresentati da vettori x₁, ..., xₙ, sono mappati verso dati di uscita corrispondenti y₁, ..., yₙ, tramite una funzione F. In questo contesto, l'obiettivo è ridurre al minimo l'errore quadratico, cioè minimizzare la funzione:

RE=i=1NyiF(xi)2RE = \sum_{i=1}^{N} ||y_i - F(x_i)||^2

Questo approccio, tuttavia, è esposto al rischio di fermarsi in un minimo locale. La difficoltà principale nella discesa del gradiente sta proprio nel determinare se l'algoritmo raggiunge un minimo globale o se si blocca su uno locale. Se si assume che gli strati della rete siano lineari, la funzione F può essere espressa come:

F(xi)=Wxi=ABxiF(x_i) = W x_i = AB x_i

dove AA è una matrice n×pn \times p e BB è una matrice p×np \times n, che rappresentano rispettivamente le transizioni tra lo strato di ingresso e lo strato nascosto, e tra lo strato nascosto e lo strato di uscita.

L'analisi delle componenti principali (PCA) offre un'altra prospettiva interessante. PCA è un metodo statistico che consente di ridurre la dimensionalità dei dati senza perdere informazioni significative. Questo viene fatto cercando le componenti principali dei dati, ossia le direzioni lungo le quali i dati mostrano la maggiore varianza. Nel contesto della regressione, è possibile osservare una connessione tra la PCA e la minimizzazione dell'errore quadratico. Quando si applica la PCA, si cerca di rappresentare i dati utilizzando le componenti principali, il che implica che la matrice di covarianza dei dati venga diagonalizzata per trovare i vettori propri (eigenvectors) e i valori propri (eigenvalues). Questi ultimi definiscono la direzione e l'importanza delle componenti principali.

Matematicamente, la PCA cerca una matrice XX di dimensioni n×nn \times n e una matrice di covarianza CC di rango nn, che viene diagonalizzata come C=UΛUTC = U \Lambda U^T, dove UU è una matrice ortogonale i cui vettori colonna sono i vettori propri, e Λ\Lambda è una matrice diagonale contenente i valori propri disposti in ordine decrescente. Le componenti principali sono poi date dai vettori Pi=u1iX1+...+uniXnP_i = u_{1i} X_1 + ... + u_{ni} X_n, che sono le proiezioni dei dati lungo le direzioni di massima varianza.

In termini di regressione dei minimi quadrati ordinari (OLS), il problema diventa quello di trovare una matrice MM tale che la somma degli errori quadrati tra le predizioni MxiM x_i e i dati reali yiy_i sia minimizzata. Un risultato fondamentale in questo contesto è che, se la matrice di covarianza ΣXX\Sigma_{XX} è invertibile e la matrice WW ha rango massimo, allora esiste una soluzione unica per MM data da:

M=ΣYXΣXX1M = \Sigma_{YX} \Sigma_{XX}^{ -1}

Un aspetto interessante nel contesto della rete neurale lineare è che le soluzioni ottimali per le matrici AA e BB non sono mai uniche. Infatti, esse possono essere moltiplicate per una matrice invertibile CC senza alterare la mappatura globale. Questo implica che la funzione di errore quadratico raggiunge un minimo globale, ma le soluzioni ottimali possono essere equivalenti, anche se rappresentate da diverse configurazioni di pesi.

Un altro risultato significativo riguarda la funzione di errore quadratico RE(A,B)RE(A, B) rispetto ai parametri AA e BB. Se si fissa una matrice AA, la funzione RERE è convessa rispetto a BB, il che implica che esiste un minimo globale. Inoltre, se ΣXX\Sigma_{XX} è invertibile e AA ha rango pieno, la funzione è strettamente convessa in BB, e il minimo unico si trova in:

B=(ATA)1ATΣYXΣXX1B = (A^T A)^{ -1} A^T \Sigma_{YX} \Sigma_{XX}^{ -1}

Nel caso autoassociativo, dove xi=yix_i = y_i, la formula si semplifica ulteriormente, mostrando che la matrice BB ottimale è:

B=(ATA)1ATB = (A^T A)^{ -1} A^T

Questo risultato può essere esteso a una rete più profonda, con più strati nascosti, grazie alla linearità delle trasformazioni, che consente di trattare l'intera rete come se fosse composta da un singolo strato nascosto.

Infine, un aspetto che non deve essere trascurato riguarda l'interconnessione tra la PCA e la regressione. In effetti, l’uso delle componenti principali come base per la proiezione dei dati implica che la regressione OLS possa essere utilizzata per calcolare le trasformazioni ottimali dei dati proiettati, riducendo la dimensionalità e migliorando l’efficienza del modello. Il legame tra la PCA e l'OLS, quindi, non è solo teorico, ma pratico, in quanto entrambe le tecniche cercano di ridurre la complessità dei dati mantenendo il più possibile l'informazione originale.

Come si collega l'analisi delle componenti principali alla minimizzazione dell'errore di regressione

L'analisi delle componenti principali (PCA) è uno degli strumenti più potenti nel campo della statistica e dell'apprendimento automatico, particolarmente quando si tratta di ridurre la dimensionalità dei dati. Il concetto di PCA è strettamente legato alla ricerca di proiezioni ortogonali su spazi di dimensione inferiore, preservando il più possibile la varianza dei dati originali. Tuttavia, il legame tra PCA e minimizzazione di determinati errori di regressione, come nel caso della regressione ordinaria dei minimi quadrati (OLS), merita un'attenzione particolare per comprendere a fondo i fondamenti matematici di tale relazione.

Nel contesto di un sistema di regressione, supponiamo di avere due matrici, AA e BB, che rappresentano i punti critici della funzione di errore di regressione RE(A,B)RE(A, B). Queste matrici definiscono la proiezione sui sotto-spazi spaziati dalle colonne di AA e BB, ed è possibile dimostrare che, in un sistema di matrici ortogonali, i punti critici corrispondono alle proiezioni ortogonali sui sotto-spazi generati dai vettori propri delle matrici AA e BB. In altre parole, possiamo dedurre che il proiettore ortogonale su un sotto-spazio spaziato da AA è equivalente alla matrice PUTAPUTA, che contiene informazioni sulla proiezione ortogonale di un dato dato.

Il problema si riduce così alla definizione di un insieme di indici I={i1,...,ip}I = \{i_1, ..., i_p\}, che corrispondono agli indici delle posizioni in cui la matrice PUTAPUTA ha voci uguali a uno. Questi indici descrivono il sotto-spazio di interesse, con la matrice MIMI, che diventa una matrice diagonale che descrive la proiezione. In altre parole, si trova che i vettori colonna di AA generano lo stesso spazio dei vettori colonna di UIUI, dove UIUI è la matrice dei vettori propri relativi ai primi pp autovalori di AA.

Questa connessione tra le matrici di regressione e i vettori propri è cruciale per comprendere come il modello di regressione lineare sia legato all'analisi delle componenti principali. La minimizzazione dell'errore di regressione, RE(A,B)RE(A, B), attraverso la proiezione ortogonale, porta a un risultato che ha implicazioni significative per il trattamento dei dati in dimensioni elevate, come quelli utilizzati in molti algoritmi di machine learning.

Nel caso specifico di un modello autoassociativo, dove il set di dati di input e output sono identici, il risultato principale suggerisce che la migliore proiezione dei dati di input sia proprio la proiezione sui sotto-spazi definiti dai primi pp autovettori della matrice di covarianza ΣXX\Sigma_{XX}. In altre parole, la minimizzazione dell'errore di regressione in un contesto autoassociativo porta naturalmente alla stessa trasformazione che esegue la PCA, dove i dati vengono proiettati sui componenti principali. Questo non solo conferma l’efficacia della PCA nella riduzione dimensionale, ma sottolinea anche la sua connessione con le tecniche di regressione più generali.

Per i lettori, è importante comprendere che, sebbene il risultato principale si riferisca alla minimizzazione dell'errore di regressione nel contesto di matrici ortogonali, la nozione di "punto critico" in questo contesto non implica necessariamente un minimo globale. Al contrario, i punti critici che non corrispondono ai minimi globali sono in realtà punti di sella, come dimostrato nel teorema finale. Ciò significa che la funzione di errore di regressione non presenta minimi locali a meno che non sia associata al set di indici {1,...,p}\{1, ..., p\}, che rappresentano gli autovalori più grandi.

Inoltre, l’analisi dei punti critici di matrici di rango ridotto rivela che questi punti, anch'essi, corrispondono a punti di sella. Tuttavia, questo argomento non è trattato nel dettaglio in questo capitolo. Ciò che conta è che, nel contesto di matrice di regressione ordinaria, il minimo globale della funzione di errore RE(A,B)RE(A, B) è raggiunto quando i dati sono proiettati sul sottospazio definito dai primi pp autovettori, un aspetto che sottolinea l'importanza della PCA nel contesto della regressione.

Per concludere, è essenziale comprendere che i metodi statistici avanzati, come la regressione ordinaria dei minimi quadrati, sono intimamente legati alla PCA, non solo nella riduzione dimensionale dei dati, ma anche nella proiezione dei dati su spazi di minore dimensione. La PCA, in questo contesto, non è solo un strumento di riduzione della dimensionalità, ma un componente fondamentale nella comprensione e minimizzazione dell'errore di regressione.