Jak optymalizacja inwestycji może przyczynić się do lepszego zarządzania majątkiem?

Optymalizacja strategii inwestycyjnych, w szczególności w kontekście planów emerytalnych, pozostaje jednym z kluczowych tematów we współczesnym zarządzaniu majątkiem. W tym obszarze coraz częściej wykorzystuje się podejście oparte na algorytmach uczenia maszynowego, szczególnie w zakresie, który łączy teorię decyzji z modelami finansowymi. W niniejszym rozdziale przedstawiamy jeden z możliwych sposobów zastosowania takich algorytmów, wykorzystujący funkcje nagrody oparte na kwadratowej stracie, w celu optymalizacji strategii inwestycyjnych w ramach planu emerytalnego.

Nagroda, którą otrzymuje model w odpowiedzi na podjęte działania, może zostać wyrażona w postaci funkcji kwadratowej, co znacząco upraszcza proces optymalizacji. Formułując funkcję nagrody w sposób podobny do równania (10.156), rozwiązywana jest kwestia ograniczeń związanych z inwestycjami w portfel, co pozwala przejść z początkowego problemu optymalizacji ograniczonej na problem nieograniczony. Dzięki temu model inwestycyjny staje się bardziej elastyczny, umożliwiając bardziej precyzyjne dostosowanie decyzji do zmieniającej się sytuacji rynkowej. Istotną cechą tej funkcji nagrody jest jej postać kwadratowa względem działań (ut), co znacznie upraszcza obliczenia, a tym samym czyni model bardziej przystępnym i praktycznym w zastosowaniach praktycznych.

Dodatkowo, użycie funkcji kwadratowej w modelu nagrody pozwala uwzględnić różne scenariusze dotyczące przyszłego stanu portfela. Choć takie podejście może być skuteczne, istnieje jedno zasadnicze ograniczenie – funkcje kwadratowe są symetryczne, co oznacza, że penalizują zarówno przypadki, w których wartość portfela jest wyższa, jak i niższa od założonego celu. Aby zminimalizować to ograniczenie, możliwe jest przyjęcie wartości docelowych P̂t+1, które są znacznie wyższe od oczekiwanego poziomu portfela na dany moment. Może to być na przykład wartość portfela, który rośnie o stałą, wystarczająco wysoką stopę zwrotu. Z tego powodu funkcja straty, będąca funkcją kwadratową względem poziomu majątku, stanowi popularny wybór w literaturze dotyczącej zarządzania majątkiem.

Zarządzanie majątkiem oparte na celu (goal-based wealth management) jest jedną z najnowszych tendencji w tej dziedzinie. Tradycyjne podejścia oparte na optymalizacji średniej i wariancji, takie jak klasyczna teoria portfela Markowitza, nie zawsze są odpowiednie dla inwestorów detalicznych. Ci często mają konkretny cel finansowy, na przykład osiągnięcie określonej wartości portfela w momencie przejścia na emeryturę. Takie podejście, bardziej intuicyjne niż klasyczna optymalizacja, stawia na osiągnięcie określonego poziomu majątku, a nie na maksymalizację stopy zwrotu. Przykładem tego jest podejście Browne'a (1996) i Das'a (2018), które stosuje prawdopodobieństwo, że końcowa wartość majątku VT będzie wyższa niż określony cel PT.

Oczywiście, aby optymalizacja była efektywna, należy uwzględnić ryzyko związane z przyszłymi wynikami inwestycji. Rynki finansowe są zmienne, co oznacza, że trudno jest przewidzieć dokładną wartość portfela w przyszłości. Z tego powodu istotnym elementem w budowie strategii inwestycyjnej jest uwzględnienie zmienności stóp zwrotu, która pozwala na lepsze modelowanie ryzyka. Współczesne podejścia do tego zagadnienia, jak np. Lin et al. (2019), wykorzystują funkcje straty oparte na kwadratowej specyfikacji w kontekście planów emerytalnych, które uwzględniają zmienne oczekiwania co do przyszłych stóp zwrotu.

Rozwiązywanie takich problemów optymalizacji w kontekście planów emerytalnych można zrealizować za pomocą semi-analitycznego podejścia, w którym nagroda i funkcja wartości są wyrażone w postaci kwadratowej, a optymalizacja dokonywana jest w sposób przyjazny obliczeniowo. Tego typu metody mogą być stosowane w zarówno w fazie gromadzenia środków, jak i wypłat, co czyni je uniwersalnymi w zastosowaniu.

Warto również zauważyć, że podejście oparte na celach ma istotne zastosowanie w przypadku inwestycji, które są związane z konkretnym czasem realizacji celu, takim jak na przykład plan emerytalny. Im bliżej jesteśmy osiągnięcia celu, tym bardziej istotna staje się precyzyjność w podejmowanych decyzjach inwestycyjnych. Zatem optymalizacja powinna uwzględniać zmniejszającą się elastyczność decyzji w miarę zbliżania się do planowanego momentu realizacji celu, co wymaga uwzględnienia odpowiednich metod analizy ryzyka w miarę zmieniających się warunków rynkowych.

Jak głębokie sieci neuronowe wpływają na przybliżenie funkcji?

Załóżmy, że mamy wektory, które są rzutowane przez ograniczoną funkcję pół-afinną $g : \mathbb{R}^p \rightarrow \mathbb{R}^q$ . Przyjmijmy, że wektory wyjściowe $g(X)$ , $g(Y) \in \mathbb{R}^q$ są niezależne i identycznie rozkładające się, mają zerową średnią i wariancję $\sigma^2 I$ . Zdefiniujmy odległość między tymi wektorami wyjściowymi jako normę $2$ -względną:

d^2_g := \| g(X) - g(Y) \|_2^2 = \sum_{i=1}^q (g_i(X) - g_i(Y))^2.

Pod warunkiem oczekiwań, mamy:

E[d^2_g] = E[g_i(X)^2] + E[g_i(Y)^2] = 2q\sigma^2 \leq q(\bar{g} - g).

Zastosowanie nierówności Jensena daje:

E[d] \leq \sqrt{2q\sigma^2} \leq \sqrt{q(\bar{g} - g)}.

Możemy zauważyć, że odległość między dwoma wektorami wyjściowymi, które są wynikiem działania ukrytej warstwy $g$ dla różnych wejść $X$ i $Y$ , może być mniej skoncentrowana w miarę wzrostu wymiarowości przestrzeni wyjściowej. Innymi słowy, punkty w przestrzeni wartości funkcji $g$ są średnio bardziej oddzielone, gdy $q$ rośnie.

Podstawowym matematycznym zagadnieniem w sieciach neuronowych jest twierdzenie o uniwersalnym przybliżeniu. Mówiąc najprościej, jest to stwierdzenie o zdolności sieci neuronowej do przybliżania dowolnej funkcji ciągłej, nieznanej, między parami wejść i wyjść, przy użyciu prostego i znanego przedstawienia funkcji. Hornik i inni (1989) pokazali, że sieć feedforward z jedną ukrytą warstwą może przybliżyć dowolną funkcję ciągłą, niezależnie od wyboru funkcji aktywacji czy danych.

Formalnie, niech $C_p := \{ F : \mathbb{R}^p \to \mathbb{R} \ | \ F(x) \in C(\mathbb{R}) \}$ będzie zbiorem funkcji ciągłych z $\mathbb{R}^p$ do $\mathbb{R}$ . Niech $\mathcal{F}_p(g)$ będzie klasą funkcji:

\mathcal{F}_p(g) := \left\{ F : \mathbb{R}^p \to \mathbb{R} : F(x) = W^{(2)} \sigma(W^{(1)} x + b^{(1)}) + b^{(2)} \right\}.

Wówczas twierdzenie o uniwersalnym przybliżeniu stwierdza, że dla każdej monotonicznie rosnącej funkcji aktywacji $\sigma$ , każdego rozmiaru wymiaru wejściowego $p$ oraz każdej miary prawdopodobieństwa $\mu$ na przestrzeni $\mathbb{R}^p$ , $\mathcal{F}_p(g)$ jest gęste na kompaktach w $C_p$ oraz gęste w metryce $\rho_\mu$ w $M_{\mathbb{R}}^p$ . Oznacza to, że przy odpowiednio dużej liczbie jednostek ukrytych, każdą funkcję ciągłą na $\mathbb{R}^p$ można przybliżyć dowolnie dokładnie, jednostajnie na dowolnym ograniczonym zbiorze, funkcjami realizowanymi przez sieci neuronowe z jedną warstwą ukrytą.

To twierdzenie jest istotne, ponieważ charakteryzuje sieci feedforward z jedną warstwą ukrytą jako klasę rozwiązań przybliżających. Jednak twierdzenie to nie jest konstruktywne – nie mówi, jak skonfigurować sieć MLP (Multilayer Perceptron), aby miała wymagane właściwości przybliżenia. Co więcej, twierdzenie ma pewne istotne ograniczenia. Nie mówi nic o wpływie dodawania kolejnych warstw, poza sugerowaniem, że są one redundantne. Zakłada również, że optymalne wektory wag są osiągalne za pomocą algorytmu gradientowego od początkowych wartości wag, co może nie być możliwe w skończonym czasie obliczeniowym. Twierdzenie nie charakteryzuje błędu predykcji – wynik jest czysto teoretyczny, oparty na teorii przybliżenia.

Kolejnym ważnym zagadnieniem jest problem nadmiernego dopasowania (overfitting) oraz ogólności wyników predykcji na zbiorach testowych, które nie zostały uwzględnione w omawianym twierdzeniu. Twierdzenie to nie wskazuje również, w jaki sposób sieci MLP mogą odzyskać inne techniki przybliżenia, takie jak interpolacja wielomianowa. Aby lepiej zrozumieć, jak sieci neuronowe uczą się funkcji, należy przejść do alternatywnych teorii, takich jak analiza klasyfikatora perceptronowego.

Podstawową trudnością w sieciach neuronowych jest wyjaśnienie, dlaczego konieczne są wielowarstwowe architektury. Odpowiedź na to pytanie nie została jeszcze jednoznacznie udzielona, choć pewne wskazówki można znaleźć w kolejnych rozdziałach, jak również w badaniach nad wymiarem VC (Vapnika-Chervonenkisa).

Wymiar VC to miara zdolności do uczenia się, która mierzy, jak dobrze sieć neuronowa jest w stanie klasyfikować dane. Dla klasyfikatora binarnego $g = F(W, b)(X)$ , wymiar VC to maksymalna liczba punktów, które można tak rozmieścić, aby funkcja $F(W, b)(X)$ je rozdzielała. Dla perceptronu z $n$ jednostkami wejściowymi i liniową funkcją aktywacji, wymiar VC wynosi $n+1$ . Na przykład, dla $n = 1$ , perceptron będzie w stanie rozdzielić tylko dwa punkty. W ogólnym przypadku, wymiar VC klasy półprzestrzeni w $k$ -wymiarowej przestrzeni $\mathbb{R}^k$ wynosi $k+1$ .

Wymiar VC jest miarą, która pozwala określić, jak dobrze sieć neuronowa będzie w stanie nauczyć się i generalizować na nowych danych. Jest to bardziej skuteczna miara zdolności uczenia niż np. liczba parametrów w sieci. W rzeczywistości, nawet sieć neuronowa z jednym parametrem może mieć nieskończony wymiar VC, co czyni ją zdolną do nauczenia się bardziej złożonych funkcji niż mogłoby się to wydawać na pierwszy rzut oka.

Jak działa algorytm Viterbiego i jego zastosowanie w modelach ukrytych procesów Markowa?

Modelowanie szeregów czasowych za pomocą ukrytych procesów Markowa (HMM) jest szeroko wykorzystywane w analizie danych, które charakteryzują się ukrytymi zmiennymi stanowymi, a obserwacje są jedynie pośrednim sygnałem tych stanów. Do jednej z najbardziej popularnych metod estymacji w tym kontekście należy algorytm Viterbiego, który pozwala na identyfikację najbardziej prawdopodobnej sekwencji ukrytych stanów na podstawie obserwowanych danych.

Ukryte procesy Markowa zakładają, że stan systemu w danym momencie (st) jest ukryty i zależy od poprzedniego stanu (st-1). Każdy stan generuje obserwację z określoną prawdopodobieństwem, a także zachowuje określoną strukturę przejść między stanami. Jednym z głównych celów pracy z HMM jest znalezienie najbardziej prawdopodobnej sekwencji ukrytych stanów, które odpowiadają danym obserwacjom.

Algorytm Viterbiego znajduje najbardziej prawdopodobną sekwencję stanów w procesie ukrytym, maksymalizując prawdopodobieństwo obserwacji danych w odniesieniu do modelu. Proces ten wymaga wcześniejszego określenia pewnych parametrów modelu, takich jak macierz przejść, macierz emisji oraz prawdopodobieństwa początkowe. Po ich określeniu, algorytm zaczyna działać iteracyjnie, obliczając prawdopodobieństwa dla każdej możliwej sekwencji stanów i wybierając najbardziej prawdopodobną.

Wzory stosowane w algorytmie Viterbiego uwzględniają przejścia między stanami w czasie, jak również prawdopodobieństwa emisji, dzięki czemu algorytm jest w stanie skutecznie modelować ukryte procesy. Przy każdym kroku w procesie, dla każdej z możliwych pozycji w sekwencji, algorytm wybiera stan, który maksymalizuje łączną prawdopodobieństwo wszystkich poprzednich stanów i obserwacji.

Podstawowy algorytm Viterbiego można zapisać w postaci rekurencyjnej:

$V_1, k = P(y_1 | s_1 = k) \cdot \pi_k$ ,
$V_t, k = \max_i P(y_t | s_t = k) \cdot A_{ik} \cdot V_{t-1, i}$ ,

gdzie $V_t, k$ to prawdopodobieństwo najbardziej prawdopodobnej sekwencji stanów do czasu t, w którym stan t-ty jest równy k, $A_{ik}$ to prawdopodobieństwo przejścia z jednego stanu do drugiego, a $\pi_k$ to prawdopodobieństwo początkowe.

Warto zauważyć, że algorytm Viterbiego jest szczególnie przydatny, gdy znamy parametry modelu, jak np. macierze przejść i emisji. W przeciwnym razie, jeśli te parametry są nieznane, należy skorzystać z algorytmu Baum-Welcha, który jest wariantem algorytmu EM (Expectation-Maximization) i pozwala na estymację parametrów modelu.

Algorytm Baum-Welcha jest stosowany, gdy nie znamy ani macierzy przejść, ani macierzy emisji. Jego zadaniem jest iteracyjne dopasowanie tych parametrów do danych obserwacyjnych, aby uzyskać model, który maksymalizuje prawdopodobieństwo zaobserwowanej sekwencji. W przypadku, gdy te parametry są już znane, nie ma potrzeby stosowania algorytmu Baum-Welcha, a wystarczy zastosować algorytm Viterbiego.

Poza samym algorytmem Viterbiego, istotne jest także zrozumienie pojęć filtrowania i wygładzania, które mają zastosowanie w kontekście szumów w danych. Dane finansowe, na przykład, często zawierają duży poziom szumów, który utrudnia identyfikację sygnałów. Filtrowanie jest ogólnym terminem odnoszącym się do ekstrakcji informacji z szumnego sygnału, natomiast wygładzanie jest jego szczególnym przypadkiem, polegającym na przepuszczaniu niskoczęstotliwościowych składników sygnału przy tłumieniu składników wysokoczęstotliwościowych. Te techniki są przydatne w HMM, ponieważ pomagają w precyzyjnym określeniu stanów ukrytych w danych o wysokiej zmienności, takich jak dane finansowe.

Podobnie jak w algorytmie Viterbiego, filtrowanie i wygładzanie pomagają w dostosowywaniu się do zmieniających się warunków w czasie, zapewniając bardziej precyzyjne szacowanie prawdopodobieństw. W kontekście HMM można je wykorzystywać do uzyskania rozkładów stanów w każdym kroku czasowym, co pomaga w lepszym modelowaniu dynamiki procesów.

Należy również wspomnieć o filtrze cząsteczkowym, który jest rozszerzeniem klasycznego podejścia do filtracji w przypadkach, gdy rozkład stanów nie jest Gaussowski. Filtr cząsteczkowy opiera się na próbkach (cząsteczkach), które są używane do przybliżenia bardziej złożonych rozkładów, na przykład rozkładu bimodalnego. Przykład tego podejścia stanowi algorytm resamplingu o nazwie Sequential Importance Resampling (SIR), który bazuje na próbkach i przypisanych im wagach, co pozwala na efektywne modelowanie rozkładów stanów w przypadku, gdy standardowe podejście Gaussowskie jest niewystarczające.

Chociaż algorytm Viterbiego jest skuteczny przy znanych parametrach modelu, warto pamiętać, że istnieje wiele innych technik i algorytmów, które mogą być zastosowane w kontekście bardziej złożonych lub nieznanych danych. W zależności od kontekstu zastosowania i jakości dostępnych danych, algorytmy takie jak Baum-Welch czy algorytmy filtrów cząsteczkowych mogą dostarczyć bardziej precyzyjnych wyników.

Jak działają równości Bellmana w procesach decyzyjnych Markowa i ich rola w algorytmach uczenia przez wzmocnienie?

W procesach decyzyjnych Markowa (MDP), decyzje podejmowane w różnych stanach zależą od funkcji wartości, które wyrażają oczekiwane długoterminowe zyski, wynikające z podjętych działań. Podstawową rolę w tym kontekście pełni równość Bellmana, której użycie pozwala na wyznaczenie optymalnej polityki działania.

Równość Bellmana dla funkcji wartości stanu V (s) jest podstawą w obliczeniach w kontekście modeli MDP. Równość ta ma postać:

$V_{\pi}(s) = \max_{a} Q_{\pi}(s, a)$

gdzie $V_{\pi}(s)$ to funkcja wartości stanu, a $Q_{\pi}(s, a)$ to funkcja wartości akcji, wyrażająca oczekiwaną nagrodę z podjęcia akcji $a$ w stanie $s$ , przy założeniu, że dalej będziemy postępować zgodnie z polityką $\pi$ .

Jeśli znamy już funkcję $Q_{\pi}(s, a)$ , możemy na jej podstawie wyznaczyć optymalną politykę, ponieważ każda akcja będzie zoptymalizowana na każdym etapie. Takie podejście jest kluczowe w algorytmach dynamicznego programowania, które służą do rozwiązywania równań Bellmana. Jednak w praktyce obliczenia oparte na tej równości mogą być trudne do przeprowadzenia, ponieważ wprowadza ona zależności między dwoma funkcjami optymalnymi, co utrudnia rozwiązywanie problemu. Z tego powodu stosuje się różne metody przybliżone.

Można jednak uzyskać bardziej bezpośrednią formę równości Bellmana, której rozwiązanie wymaga tylko znajomości funkcji $Q_{\pi}(s, a)$ w jednym czasie, a nie dwóch funkcji. Zatem równość Bellmana przyjmuje postać:

$Q_{\pi}(s, a) = E \left[ R(s, a, s') + \gamma \max_{a'} Q_{\pi}(s', a') \right]$

Ta wersja jest bardziej praktyczna, ponieważ pozwala na rozwiązywanie problemu w oparciu wyłącznie o funkcję wartości akcji, bez konieczności uwzględniania wszystkich wartości stanów.

Istotnym pojęciem w tym kontekście jest także tzw. zasada optymalności Bellmana, która mówi, że optymalne skumulowane nagrody można uzyskać, podejmując optymalną decyzję w danym momencie oraz postępując zgodnie z optymalną polityką w przyszłości. Kluczowe jest tutaj, że równości Bellmana stanowią fundament algorytmów dynamicznego programowania i uczenia przez wzmocnienie, które opierają się na znajomości przejść między stanami oraz maksymalizacji funkcji wartości.

Równość Bellmana dla funkcji wartości stanu może zostać zapisana w wersji dla problemu o nieograniczonym horyzoncie czasowym, czyli tzw. przypadku horyzontu nieskończonego. W takim przypadku funkcja wartości nie zależy od czasu i przyjmuje postać:

$T_{\pi} V_{\pi} = V_{\pi}$

gdzie $T_{\pi}$ jest operatorem Bellmana dla polityki $\pi$ . Równanie to jest równaniem stałej punktu, co oznacza, że rozwiązanie jest unikalne, gdy $\gamma < 1$ , a operator Bellmana jest kontrakcją.

W sytuacjach rzeczywistych, kiedy nie znamy modelu środowiska i nie dysponujemy doskonałą wiedzą o przejściach między stanami, stosowanie klasycznych metod dynamicznego programowania staje się praktycznie niemożliwe. W takich przypadkach, w uczeniu przez wzmocnienie, stosuje się metody przybliżone, które pozwalają na empiryczne rozwiązanie problemów przy ograniczonej wiedzy o przejściach, bazując jedynie na obserwacjach.

Równości Bellmana odgrywają również ważną rolę w kontekście problemów o skończonym horyzoncie czasowym. W takich przypadkach czas $t$ jest traktowany jako etap procesu, a po $N$ etapach system przechodzi do stanu końcowego. Zgodnie z tym, proces podejmowania decyzji staje się podobny do rozwiązania problemu drogi najkrótszej, czyli klasycznego problemu teorii grafów.

W przypadku problemów o skończonym horyzoncie, gdzie po określonej liczbie kroków agent przechodzi do stanu absorpcyjnego, można zastosować rozszerzoną wersję równości Bellmana, traktując stan jako kombinację aktualnego stanu i etapu procesu, co prowadzi do rozwiązania podobnego do problemu najkrótszej ścieżki.

Wszystkie te metody, zarówno teoretyczne, jak i empiryczne, wchodzą w skład metod dynamicznego programowania i są niezbędne do rozwiązywania problemów w środowisku z ograniczoną wiedzą o dynamice. Kluczowym elementem w tym kontekście jest zdolność do zastosowania równań Bellmana, które pozwalają na podejmowanie decyzji w sposób optymalny, bazując na dostępnych informacjach.

Jak działa obrazowanie protoakustyczne w terapii protonowej i jak wpływa na precyzyjność leczenia?
Jak poprawić jakość snu za pomocą jogi i masaży: sprawdzone techniki relaksacyjne
Jakie technologie magazynowania i transportu gazowego wodoru są stosowane obecnie w przemyśle?
Jak Adaptery Zmieniają Fine-Tuning Modele Językowe i Optymalizują Koszty
Jak Trump Znalazł Swoje Bazy: Wpływ Zmieniającej się Gospodarki na Głosowanie i Sojusze Polityczne