Jak znaleźć globalne minimum w analizie głównych składowych?

W przypadku autoassociacyjnym, wzór dla macierzy $A$ można zapisać jako $A = \hat{A}(B) = \Sigma_{XX} B^T (B \Sigma_{XX} B^T)^{ -1}$ . W tym przypadku rozwiązanie opiera się na metodzie najmniejszych kwadratów, gdzie celem jest minimalizacja funkcji błędu $RE(A, B) = ||\text{vec}(Y - ABX)||^2$ , a także znalezienie wyrazu zależnego od wektora $\text{vec}(A)$ .

Aby przeprowadzić analizę tego problemu, zapisujemy wyrażenie dla $RE(A, B)$ , używając następującej tożsamości:

RE(A, B) = ||\text{vec}(Y) - \text{vec}(I A (BX))||^2 = ||\text{vec}(Y) - ((BX)^T \otimes I) \text{vec}(A)||^2.

Po zastosowaniu Twierdzenia 1.2.10(1), możemy stwierdzić, że funkcja błędu $RE$ jest wypukła w odniesieniu do $A$ i osiąga globalne minimum, jeśli $A$ spełnia warunek:

(X^T B^T \otimes I)^T (X^T B^T \otimes I) \text{vec}(A) = (X^T B^T \otimes I)^T \text{vec}(Y).

Po przeanalizowaniu lewej strony uzyskujemy:

(X^T B^T \otimes I)^T (X^T B^T \otimes I) \text{vec}(A) = (BX \otimes I)(X^T B^T \otimes I) \text{vec}(A) = (B \Sigma_{XX} B^T \otimes I) \text{vec}(A) = \text{vec}(I A (B \Sigma_{XX} B^T)^T).

Prawa strona daje:

(X^T B^T \otimes I)^T \text{vec}(Y) = (BX \otimes I) \text{vec}(Y) = \text{vec}(Y X^T B^T) = \text{vec}(\Sigma_{Y} X B^T).

Stąd, jeśli $A$ spełnia warunek $AB \Sigma_{XX} B^T = \Sigma_{Y} X B^T$ , funkcja $RE$ osiąga globalne minimum.

Jeśli $B$ ma pełny rząd, a $\Sigma_{XX}$ jest macierzą odwracalną, to mamy do czynienia z pełnym rzędem. Zauważmy, że $\Sigma_{XX}$ jest macierzą dodatnio półokreśloną i symetryczną. Z tego wynika, że macierz $B \Sigma_{XX} B^T$ jest dodatnio półokreślona. Ponieważ jest także symetryczna i pełnego rzędu, można zastosować Lemat 1.2.8, który wskazuje, że jest ona dodatnio określona.

Zatem dla autoassociacyjnego przypadku $\Sigma_{XX} = \Sigma_{Y X}$ , wcześniejsze wyrażenie upraszcza się do:

\hat{A}(B) = \Sigma_{XX} B^T (B \Sigma_{XX} B^T)^{ -1}.

Z tych wyników możemy teraz wyciągnąć wnioski na temat mapy globalnej, która odpowiada punktowi krytycznemu. Teoremat 3.1.5 mówi, że jeśli $\Sigma_{XX}$ jest macierzą odwracalną, a $A$ ma pełny rząd, to $A$ i $B$ definiują punkt krytyczny $RE$ (czyli $\delta RE = 0$ ) wtedy i tylko wtedy, gdy $\delta a_{ij} = \delta b_{ij} = 1$ . Mapa globalna $W = AB$ przyjmuje wtedy formę $W = P - A \Sigma_{Y X} \Sigma_{XX}^{ -1}$ . Przy tym $A$ spełnia warunek:

PA \Sigma = PA \Sigma PA = \Sigma PA.

W przypadku autoassociacyjnym, gdzie $\Sigma = \Sigma_{XX}$ , mapa globalna ma postać $W = PA$ , a $B = B^*$ i $A$ spełnia równanie:

PA \Sigma_{XX} = PA \Sigma_{XX} PA = \Sigma_{XX} PA.

W celu uzyskania pełnej odpowiedzi w przypadku ogólnym, powinniśmy rozważyć układ $A = U_I C$ oraz $B = C^{ -1} U_I^T \Sigma_{Y X} \Sigma_{XX}^{ -1}$ . Dzięki zastosowaniu twierdzenia 3.1.6 można wyprowadzić, że:

W = P U \Sigma_{Y X} \Sigma_{XX}^{ -1},

gdzie $\Sigma$ jest symetryczną macierzą, której wartości własne są uporządkowane malejąco. W tym przypadku mamy do czynienia z macierzą diagonalną $\Sigma = U \Lambda U^T$ , gdzie $\Lambda$ jest macierzą wartości własnych, a $U$ jest macierzą ortogonalną, zawierającą wektory własne.

Po zakończeniu analizy można dojść do wniosku, że wyprowadzone warunki są wystarczające do zdefiniowania punktu krytycznego $RE$ i wyznaczenia odpowiednich macierzy $A$ i $B$ .

Czy funkcje nieliniowe w warstwie ukrytej wpływają na optymalizację wag w sieciach neuronowych?

W poprzednich sekcjach omówiliśmy, jak w kontekście sieci neuronowych z jedną warstwą ukrytą optymalizować macierze wag i wektory biasu w przypadku danych wejściowych o charakterystyce liniowej. Obecnie skupimy się na tym, jak funkcje aktywacji w warstwie ukrytej, które są nieliniowe, mogą wpłynąć na wybór optymalnych macierzy wag oraz ich reprezentację.

W przypadku sieci neuronowych z warstwą ukrytą, która przetwarza dane wejściowe przez funkcje aktywacji, ważnym zagadnieniem jest sposób, w jaki te funkcje wpływają na proces optymalizacji. W przypadku danych wejściowych o charakterze liniowym, jak wykazano wcześniej, zastosowanie funkcji nieliniowej w warstwie ukrytej nie wnosi istotnych korzyści. W takim przypadku, ponieważ dane są już liniowo przetwarzane, zastosowanie funkcji aktywacji, które można lokalnie przybliżyć funkcjami liniowymi, nie zmienia wyniku sieci.

Teoretycznie, jeśli funkcja nieliniowa może być przybliżona liniowo w okolicach zera, to zmiany w macierzach wag i wektorze biasu mogą pozwolić na uzyskanie pożądanych wyników. W praktyce oznacza to, że przy małych perturbacjach w macierzy wag oraz wektorze biasu, możemy uzyskać wynik g(H̃0) = Ĥ ′, gdzie Ĥ ′ jest wynikiem transformacji liniowej, która zachowuje optymalność rozwiązania.

Znajdujemy więc, że dla danych wejściowych o charakterze liniowym, sieć neuronowa z warstwą ukrytą, zawierającą funkcje nieliniowe, może być matematycznie upraszczona do wersji z warstwami liniowymi. Ponadto, dla takich danych, możliwe jest uzyskanie optymalnych wag przy wykorzystaniu wyników z wcześniejszych rozdziałów, które pozwalają na bezpośrednie obliczenie macierzy wag oraz wektora biasu.

Funkcja aktywacji w warstwie ukrytej, która jest liniowa w swojej najbliższej okolicy, pozwala na wyprowadzenie wyraźnego wzoru na optymalny wektor biasu, który jest w istocie wektorem, który „usuwa średnią” z danych wejściowych, tj. przekształca je na dane z zerową średnią. Takie podejście pozwala na uproszczenie procesu optymalizacji i uniknięcie problemów lokalnych minimów, które mogą wystąpić w przypadku sieci z nieliniowymi warstwami, gdy próbujemy znaleźć minimum za pomocą algorytmu gradientu.

Ostatecznie, w przypadku danych wejściowych o charakterze liniowym, stosowanie warstw nieliniowych w sieci neuronowej może okazać się nieoptymalne. W takich przypadkach rekomenduje się stosowanie warstw liniowych, ponieważ umożliwiają one łatwiejsze uzyskanie optymalnych rozwiązań przy minimalnym ryzyku wpadania w lokalne minima funkcji kosztu. Z tego powodu, przy danych liniowych, dla optymalnej wydajności, sieci neuronowe z warstwami nieliniowymi nie oferują zauważalnych korzyści w porównaniu z modelami liniowymi.

Próba zastosowania bardziej złożonych, nieliniowych funkcji aktywacji w warstwie ukrytej nie wnosi istotnych korzyści, a jednocześnie komplikowałaby proces uczenia modelu, zwłaszcza w kontekście gradientowego spadku i problemów z lokalnymi minimami. Takie podejście, jak pokazano w poprzednich sekcjach, może prowadzić do rozwiązania, które jest matematycznie mniej efektywne, pomimo wydawałoby się większej elastyczności modeli nieliniowych.

Warto zauważyć, że teoretyczne rozważania o nieliniowych funkcjach aktywacji w kontekście danych liniowych mogą być rozszerzone na bardziej skomplikowane przypadki, kiedy dane mają charakter nieliniowy. Wówczas zastosowanie funkcji aktywacji, które nie są lokalnie przybliżalne liniowo, może rzeczywiście wprowadzić wartość dodaną w zakresie dokładności modelu i jego zdolności do generalizacji.

Jak przewidzieć deformację kratownic GFRP w procesie wznoszenia konstrukcji?
Jak prawidłowo łączyć elementy szydełkowe i tworzyć efektowne projekty?
Jakie właściwości i zastosowania mają materiały kompozytowe w nowoczesnym inżynierii?
Jakie tajemnice skrywają rytuały i umysł księcia Ram?