W przypadku autoassociacyjnym, wzór dla macierzy AA można zapisać jako A=A^(B)=ΣXXBT(BΣXXBT)1A = \hat{A}(B) = \Sigma_{XX} B^T (B \Sigma_{XX} B^T)^{ -1}. W tym przypadku rozwiązanie opiera się na metodzie najmniejszych kwadratów, gdzie celem jest minimalizacja funkcji błędu RE(A,B)=vec(YABX)2RE(A, B) = ||\text{vec}(Y - ABX)||^2, a także znalezienie wyrazu zależnego od wektora vec(A)\text{vec}(A).

Aby przeprowadzić analizę tego problemu, zapisujemy wyrażenie dla RE(A,B)RE(A, B), używając następującej tożsamości:

RE(A,B)=vec(Y)vec(IA(BX))2=vec(Y)((BX)TI)vec(A)2.RE(A, B) = ||\text{vec}(Y) - \text{vec}(I A (BX))||^2 = ||\text{vec}(Y) - ((BX)^T \otimes I) \text{vec}(A)||^2.

Po zastosowaniu Twierdzenia 1.2.10(1), możemy stwierdzić, że funkcja błędu RERE jest wypukła w odniesieniu do AA i osiąga globalne minimum, jeśli AA spełnia warunek:

(XTBTI)T(XTBTI)vec(A)=(XTBTI)Tvec(Y).(X^T B^T \otimes I)^T (X^T B^T \otimes I) \text{vec}(A) = (X^T B^T \otimes I)^T \text{vec}(Y).

Po przeanalizowaniu lewej strony uzyskujemy:

(XTBTI)T(XTBTI)vec(A)=(BXI)(XTBTI)vec(A)=(BΣXXBTI)vec(A)=vec(IA(BΣXXBT)T).(X^T B^T \otimes I)^T (X^T B^T \otimes I) \text{vec}(A) = (BX \otimes I)(X^T B^T \otimes I) \text{vec}(A) = (B \Sigma_{XX} B^T \otimes I) \text{vec}(A) = \text{vec}(I A (B \Sigma_{XX} B^T)^T).

Prawa strona daje:

(XTBTI)Tvec(Y)=(BXI)vec(Y)=vec(YXTBT)=vec(ΣYXBT).(X^T B^T \otimes I)^T \text{vec}(Y) = (BX \otimes I) \text{vec}(Y) = \text{vec}(Y X^T B^T) = \text{vec}(\Sigma_{Y} X B^T).

Stąd, jeśli AA spełnia warunek ABΣXXBT=ΣYXBTAB \Sigma_{XX} B^T = \Sigma_{Y} X B^T, funkcja RERE osiąga globalne minimum.

Jeśli BB ma pełny rząd, a ΣXX\Sigma_{XX} jest macierzą odwracalną, to mamy do czynienia z pełnym rzędem. Zauważmy, że ΣXX\Sigma_{XX} jest macierzą dodatnio półokreśloną i symetryczną. Z tego wynika, że macierz BΣXXBTB \Sigma_{XX} B^T jest dodatnio półokreślona. Ponieważ jest także symetryczna i pełnego rzędu, można zastosować Lemat 1.2.8, który wskazuje, że jest ona dodatnio określona.

Zatem dla autoassociacyjnego przypadku ΣXX=ΣYX\Sigma_{XX} = \Sigma_{Y X}, wcześniejsze wyrażenie upraszcza się do:

A^(B)=ΣXXBT(BΣXXBT)1.\hat{A}(B) = \Sigma_{XX} B^T (B \Sigma_{XX} B^T)^{ -1}.

Z tych wyników możemy teraz wyciągnąć wnioski na temat mapy globalnej, która odpowiada punktowi krytycznemu. Teoremat 3.1.5 mówi, że jeśli ΣXX\Sigma_{XX} jest macierzą odwracalną, a AA ma pełny rząd, to AA i BB definiują punkt krytyczny RERE (czyli δRE=0\delta RE = 0) wtedy i tylko wtedy, gdy δaij=δbij=1\delta a_{ij} = \delta b_{ij} = 1. Mapa globalna W=ABW = AB przyjmuje wtedy formę W=PAΣYXΣXX1W = P - A \Sigma_{Y X} \Sigma_{XX}^{ -1}. Przy tym AA spełnia warunek:

PAΣ=PAΣPA=ΣPA.PA \Sigma = PA \Sigma PA = \Sigma PA.

W przypadku autoassociacyjnym, gdzie Σ=ΣXX\Sigma = \Sigma_{XX}, mapa globalna ma postać W=PAW = PA, a B=BB = B^* i AA spełnia równanie:

PAΣXX=PAΣXXPA=ΣXXPA.PA \Sigma_{XX} = PA \Sigma_{XX} PA = \Sigma_{XX} PA.

W celu uzyskania pełnej odpowiedzi w przypadku ogólnym, powinniśmy rozważyć układ A=UICA = U_I C oraz B=C1UITΣYXΣXX1B = C^{ -1} U_I^T \Sigma_{Y X} \Sigma_{XX}^{ -1}. Dzięki zastosowaniu twierdzenia 3.1.6 można wyprowadzić, że:

W=PUΣYXΣXX1,W = P U \Sigma_{Y X} \Sigma_{XX}^{ -1},

gdzie Σ\Sigma jest symetryczną macierzą, której wartości własne są uporządkowane malejąco. W tym przypadku mamy do czynienia z macierzą diagonalną Σ=UΛUT\Sigma = U \Lambda U^T, gdzie Λ\Lambda jest macierzą wartości własnych, a UU jest macierzą ortogonalną, zawierającą wektory własne.

Po zakończeniu analizy można dojść do wniosku, że wyprowadzone warunki są wystarczające do zdefiniowania punktu krytycznego RERE i wyznaczenia odpowiednich macierzy AA i BB.

Czy funkcje nieliniowe w warstwie ukrytej wpływają na optymalizację wag w sieciach neuronowych?

W poprzednich sekcjach omówiliśmy, jak w kontekście sieci neuronowych z jedną warstwą ukrytą optymalizować macierze wag i wektory biasu w przypadku danych wejściowych o charakterystyce liniowej. Obecnie skupimy się na tym, jak funkcje aktywacji w warstwie ukrytej, które są nieliniowe, mogą wpłynąć na wybór optymalnych macierzy wag oraz ich reprezentację.

W przypadku sieci neuronowych z warstwą ukrytą, która przetwarza dane wejściowe przez funkcje aktywacji, ważnym zagadnieniem jest sposób, w jaki te funkcje wpływają na proces optymalizacji. W przypadku danych wejściowych o charakterze liniowym, jak wykazano wcześniej, zastosowanie funkcji nieliniowej w warstwie ukrytej nie wnosi istotnych korzyści. W takim przypadku, ponieważ dane są już liniowo przetwarzane, zastosowanie funkcji aktywacji, które można lokalnie przybliżyć funkcjami liniowymi, nie zmienia wyniku sieci.

Teoretycznie, jeśli funkcja nieliniowa może być przybliżona liniowo w okolicach zera, to zmiany w macierzach wag i wektorze biasu mogą pozwolić na uzyskanie pożądanych wyników. W praktyce oznacza to, że przy małych perturbacjach w macierzy wag oraz wektorze biasu, możemy uzyskać wynik g(H̃0) = Ĥ ′, gdzie Ĥ ′ jest wynikiem transformacji liniowej, która zachowuje optymalność rozwiązania.

Znajdujemy więc, że dla danych wejściowych o charakterze liniowym, sieć neuronowa z warstwą ukrytą, zawierającą funkcje nieliniowe, może być matematycznie upraszczona do wersji z warstwami liniowymi. Ponadto, dla takich danych, możliwe jest uzyskanie optymalnych wag przy wykorzystaniu wyników z wcześniejszych rozdziałów, które pozwalają na bezpośrednie obliczenie macierzy wag oraz wektora biasu.

Funkcja aktywacji w warstwie ukrytej, która jest liniowa w swojej najbliższej okolicy, pozwala na wyprowadzenie wyraźnego wzoru na optymalny wektor biasu, który jest w istocie wektorem, który „usuwa średnią” z danych wejściowych, tj. przekształca je na dane z zerową średnią. Takie podejście pozwala na uproszczenie procesu optymalizacji i uniknięcie problemów lokalnych minimów, które mogą wystąpić w przypadku sieci z nieliniowymi warstwami, gdy próbujemy znaleźć minimum za pomocą algorytmu gradientu.

Ostatecznie, w przypadku danych wejściowych o charakterze liniowym, stosowanie warstw nieliniowych w sieci neuronowej może okazać się nieoptymalne. W takich przypadkach rekomenduje się stosowanie warstw liniowych, ponieważ umożliwiają one łatwiejsze uzyskanie optymalnych rozwiązań przy minimalnym ryzyku wpadania w lokalne minima funkcji kosztu. Z tego powodu, przy danych liniowych, dla optymalnej wydajności, sieci neuronowe z warstwami nieliniowymi nie oferują zauważalnych korzyści w porównaniu z modelami liniowymi.

Próba zastosowania bardziej złożonych, nieliniowych funkcji aktywacji w warstwie ukrytej nie wnosi istotnych korzyści, a jednocześnie komplikowałaby proces uczenia modelu, zwłaszcza w kontekście gradientowego spadku i problemów z lokalnymi minimami. Takie podejście, jak pokazano w poprzednich sekcjach, może prowadzić do rozwiązania, które jest matematycznie mniej efektywne, pomimo wydawałoby się większej elastyczności modeli nieliniowych.

Warto zauważyć, że teoretyczne rozważania o nieliniowych funkcjach aktywacji w kontekście danych liniowych mogą być rozszerzone na bardziej skomplikowane przypadki, kiedy dane mają charakter nieliniowy. Wówczas zastosowanie funkcji aktywacji, które nie są lokalnie przybliżalne liniowo, może rzeczywiście wprowadzić wartość dodaną w zakresie dokładności modelu i jego zdolności do generalizacji.