W przypadku autoassociacyjnym, wzór dla macierzy można zapisać jako . W tym przypadku rozwiązanie opiera się na metodzie najmniejszych kwadratów, gdzie celem jest minimalizacja funkcji błędu , a także znalezienie wyrazu zależnego od wektora .
Aby przeprowadzić analizę tego problemu, zapisujemy wyrażenie dla , używając następującej tożsamości:
Po zastosowaniu Twierdzenia 1.2.10(1), możemy stwierdzić, że funkcja błędu jest wypukła w odniesieniu do i osiąga globalne minimum, jeśli spełnia warunek:
Po przeanalizowaniu lewej strony uzyskujemy:
Prawa strona daje:
Stąd, jeśli spełnia warunek , funkcja osiąga globalne minimum.
Jeśli ma pełny rząd, a jest macierzą odwracalną, to mamy do czynienia z pełnym rzędem. Zauważmy, że jest macierzą dodatnio półokreśloną i symetryczną. Z tego wynika, że macierz jest dodatnio półokreślona. Ponieważ jest także symetryczna i pełnego rzędu, można zastosować Lemat 1.2.8, który wskazuje, że jest ona dodatnio określona.
Zatem dla autoassociacyjnego przypadku , wcześniejsze wyrażenie upraszcza się do:
Z tych wyników możemy teraz wyciągnąć wnioski na temat mapy globalnej, która odpowiada punktowi krytycznemu. Teoremat 3.1.5 mówi, że jeśli jest macierzą odwracalną, a ma pełny rząd, to i definiują punkt krytyczny (czyli ) wtedy i tylko wtedy, gdy . Mapa globalna przyjmuje wtedy formę . Przy tym spełnia warunek:
W przypadku autoassociacyjnym, gdzie , mapa globalna ma postać , a i spełnia równanie:
W celu uzyskania pełnej odpowiedzi w przypadku ogólnym, powinniśmy rozważyć układ oraz . Dzięki zastosowaniu twierdzenia 3.1.6 można wyprowadzić, że:
gdzie jest symetryczną macierzą, której wartości własne są uporządkowane malejąco. W tym przypadku mamy do czynienia z macierzą diagonalną , gdzie jest macierzą wartości własnych, a jest macierzą ortogonalną, zawierającą wektory własne.
Po zakończeniu analizy można dojść do wniosku, że wyprowadzone warunki są wystarczające do zdefiniowania punktu krytycznego i wyznaczenia odpowiednich macierzy i .
Czy funkcje nieliniowe w warstwie ukrytej wpływają na optymalizację wag w sieciach neuronowych?
W poprzednich sekcjach omówiliśmy, jak w kontekście sieci neuronowych z jedną warstwą ukrytą optymalizować macierze wag i wektory biasu w przypadku danych wejściowych o charakterystyce liniowej. Obecnie skupimy się na tym, jak funkcje aktywacji w warstwie ukrytej, które są nieliniowe, mogą wpłynąć na wybór optymalnych macierzy wag oraz ich reprezentację.
W przypadku sieci neuronowych z warstwą ukrytą, która przetwarza dane wejściowe przez funkcje aktywacji, ważnym zagadnieniem jest sposób, w jaki te funkcje wpływają na proces optymalizacji. W przypadku danych wejściowych o charakterze liniowym, jak wykazano wcześniej, zastosowanie funkcji nieliniowej w warstwie ukrytej nie wnosi istotnych korzyści. W takim przypadku, ponieważ dane są już liniowo przetwarzane, zastosowanie funkcji aktywacji, które można lokalnie przybliżyć funkcjami liniowymi, nie zmienia wyniku sieci.
Teoretycznie, jeśli funkcja nieliniowa może być przybliżona liniowo w okolicach zera, to zmiany w macierzach wag i wektorze biasu mogą pozwolić na uzyskanie pożądanych wyników. W praktyce oznacza to, że przy małych perturbacjach w macierzy wag oraz wektorze biasu, możemy uzyskać wynik g(H̃0) = Ĥ ′, gdzie Ĥ ′ jest wynikiem transformacji liniowej, która zachowuje optymalność rozwiązania.
Znajdujemy więc, że dla danych wejściowych o charakterze liniowym, sieć neuronowa z warstwą ukrytą, zawierającą funkcje nieliniowe, może być matematycznie upraszczona do wersji z warstwami liniowymi. Ponadto, dla takich danych, możliwe jest uzyskanie optymalnych wag przy wykorzystaniu wyników z wcześniejszych rozdziałów, które pozwalają na bezpośrednie obliczenie macierzy wag oraz wektora biasu.
Funkcja aktywacji w warstwie ukrytej, która jest liniowa w swojej najbliższej okolicy, pozwala na wyprowadzenie wyraźnego wzoru na optymalny wektor biasu, który jest w istocie wektorem, który „usuwa średnią” z danych wejściowych, tj. przekształca je na dane z zerową średnią. Takie podejście pozwala na uproszczenie procesu optymalizacji i uniknięcie problemów lokalnych minimów, które mogą wystąpić w przypadku sieci z nieliniowymi warstwami, gdy próbujemy znaleźć minimum za pomocą algorytmu gradientu.
Ostatecznie, w przypadku danych wejściowych o charakterze liniowym, stosowanie warstw nieliniowych w sieci neuronowej może okazać się nieoptymalne. W takich przypadkach rekomenduje się stosowanie warstw liniowych, ponieważ umożliwiają one łatwiejsze uzyskanie optymalnych rozwiązań przy minimalnym ryzyku wpadania w lokalne minima funkcji kosztu. Z tego powodu, przy danych liniowych, dla optymalnej wydajności, sieci neuronowe z warstwami nieliniowymi nie oferują zauważalnych korzyści w porównaniu z modelami liniowymi.
Próba zastosowania bardziej złożonych, nieliniowych funkcji aktywacji w warstwie ukrytej nie wnosi istotnych korzyści, a jednocześnie komplikowałaby proces uczenia modelu, zwłaszcza w kontekście gradientowego spadku i problemów z lokalnymi minimami. Takie podejście, jak pokazano w poprzednich sekcjach, może prowadzić do rozwiązania, które jest matematycznie mniej efektywne, pomimo wydawałoby się większej elastyczności modeli nieliniowych.
Warto zauważyć, że teoretyczne rozważania o nieliniowych funkcjach aktywacji w kontekście danych liniowych mogą być rozszerzone na bardziej skomplikowane przypadki, kiedy dane mają charakter nieliniowy. Wówczas zastosowanie funkcji aktywacji, które nie są lokalnie przybliżalne liniowo, może rzeczywiście wprowadzić wartość dodaną w zakresie dokładności modelu i jego zdolności do generalizacji.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский