Model Black-Litterman (BL) stanowi podejście oparte na optymalizacji portfela, które zostało zaprezentowane przez Blacka i Littermana w 1991 roku. Jego celem jest poprawa klasycznego modelu Markowitza, który oblicza optymalny portfel na podstawie przewidywanych zwrotów rynkowych oraz ich kowariancji. W teorii Markowitza, inwestor stara się zmaksymalizować funkcję użyteczności U(a)=aTrˉλaTΣaU(a) = a^T \bar{r} - \lambda a^T \Sigma a, gdzie λ\lambda to współczynnik awersji do ryzyka. Problem, który stawiają Markowitz i Black-Litterman, polega na tym, że zwroty rˉ\bar{r} zależą od różnych sygnałów predykcyjnych zz. Model Black-Litterman zmienia podejście, wprowadzając odwrotną optymalizację: zamiast analizować przewidywane zwroty, BL bierze jako punkt wyjścia portfel optymalny rynku, przyjmując, że jest on uzyskany na podstawie maksymalizacji funkcji użyteczności Markowitza. Na tej podstawie wyprowadza się widzenia rynku dotyczące oczekiwanych zwrotów, które następnie przekłada się na konkretne sygnały predykcyjne.

Model ten pozwala nie tylko na wyciąganie wniosków na temat tego, jak rynek postrzega oczekiwane zwroty, ale również na ocenę, w jaki sposób prywatne sygnały inwestorów mogą wpłynąć na wyniki portfela inwestycyjnego. Ciekawym rozszerzeniem modelu BL jest podejście zaprezentowane przez Bertsimas i innych (2012), którzy sformułowali model BL jako problem odwrotnej optymalizacji. Mimo że wciąż jest to formuła jednoperyodowa, może być niewystarczająca, jeśli analizujemy sygnały, których dynamika rozciąga się na kilka okresów handlowych. W takim przypadku konieczne jest wprowadzenie modelu wielokrotnych okresów.

Współczesne podejście do rynku finansowego opiera się na dynamicznych, agentowych modelach, które wykraczają poza statyczne założenia tradycyjnych teorii optymalizacji. W kontekście tego podejścia, istotne jest uwzględnienie koncepcji ograniczonej racjonalności (bounded rationality). Pierwotnie zaprezentowana przez Simona w 1956 roku, koncepcja ta wskazuje na to, że rzeczywiści inwestorzy nie zawsze działają w sposób w pełni racjonalny. Tradycyjne modele finansowe zakładają, że inwestorzy są w pełni racjonalni, tzn. maksymalizują swoją użyteczność, mając do dyspozycji pełną wiedzę o rynku i jego przyszłych zachowaniach. Jednak, w prawdziwych warunkach rynkowych, uczestnicy rynku są zróżnicowani pod względem celów inwestycyjnych, preferencji ryzyka i dostępu do informacji. Dlatego modelowanie rynku jako zbioru agentów, z których każdy jest w pełni racjonalny, może prowadzić do zbyt uproszczonych wniosków.

Z tego powodu wprowadzenie koncepcji ograniczonej racjonalności jest niezwykle ważne. Ograniczeni racjonalnie inwestorzy nie dążą do maksymalizacji swojej użyteczności w sposób absolutny, lecz w ramach ograniczeń, takich jak koszty informacji czy błędy poznawcze. W kontekście inwestycji finansowych oznacza to, że ich działania mogą być bardziej związane z aktualnymi warunkami rynkowymi oraz z preferencjami dotyczącymi kosztów pozyskiwania i przetwarzania informacji. Inwestorzy tacy mogą nie zmieniać swojej polityki inwestycyjnej w odpowiedzi na każdy sygnał rynkowy, lecz tylko w odpowiedzi na zmiany, które uznają za istotne, biorąc pod uwagę koszt uzyskania informacji i związane z tym ryzyko.

Dzięki zaawansowanym modelom dynamicznym, takim jak zastosowanie teorii G-learning w kontekście agentów o ograniczonej racjonalności, możliwe staje się modelowanie rynku jako systemu, w którym nie tylko dane rynkowe wpływają na decyzje inwestorów, ale także koszty związane z przetwarzaniem informacji. G-learning dostarcza matematycznej ramy do analizy zachowań takich agentów, których decyzje są wynikiem procesu uczenia się i dostosowywania się do zmieniających się warunków rynkowych.

Kluczowe w tym podejściu jest zrozumienie, że działania inwestorów na rynku finansowym mają wpływ na jego dynamikę. Nawet jeśli same decyzje inwestycyjne nie są bezpośrednio widoczne, ich konsekwencje manifestują się w formie zmieniających się cen rynkowych, co jest efektem tzw. „niewidzialnej ręki rynku”. Działania inwestorów, nawet w przypadku modelowania rynku jako jednej, zbiorczej jednostki, mogą wciąż prowadzić do znacznych wahań cenowych, które mają wpływ na decyzje innych uczestników rynku.

Aby lepiej zrozumieć zachowanie agentów na rynku, należy również uwzględnić fakt, że nie każdy sygnał inwestycyjny będzie traktowany z równą wagą przez wszystkich uczestników rynku. Nierówności w dostępie do informacji, różnice w doświadczeniu inwestorów oraz ich indywidualne preferencje w zakresie ryzyka prowadzą do tego, że decyzje inwestycyjne są niejednorodne i nie zawsze optymalne w sensie tradycyjnej teorii ekonomii. Warto więc przyjąć, że rynki finansowe, zamiast dążyć do równowagi, charakteryzują się ciągłą zmiennością, która jest wynikiem interakcji różnych agentów o różnych preferencjach i strategiach inwestycyjnych.

Jak modelowanie dynamiki rynku finansowego przez równości Langevina wpływa na przewidywanie zachowań cen akcji?

W pierwszej równości, zmienne ut pojawia się jako inwestycja kapitałowa, podczas gdy w drugiej wchodzi poprzez termin wpływu rynkowego μut, ponieważ dodanie kapitału ut oznacza transakcję ilości akcji proporcjonalną do ut. Przy zastosowaniu liniowego przybliżenia wpływu, generuje to termin wpływu μut. Jak pokażemy poniżej, termin ten jest krytyczny, nawet dla bardzo małych wartości μ, ponieważ granica μ→0 w wynikowym modelu jest nienałogiczna. Generalnie, ilość kapitału ut wprowadzana przez inwestorów na rynek w czasie t powinna zależeć od bieżącej kapitalizacji rynkowej Xt, a także od innych czynników, jak np. sygnały alfa. Rozważmy najprostszy możliwy funkcjonalny kształt ut, bez sygnałów, który ma postać:

ut=ϕXt+λXt2,ut = \phi X_t + \lambda X_t^2,

gdzie φ i λ to parametry. Zauważmy brak stałego składnika w tym wyrażeniu, co zapewnia, że żaden inwestor nie zainwestuje w akcje o ściśle zerowej cenie. Równanie to można traktować jako pierwszą liniową aproksymację bardziej ogólnej, nieliniowej funkcji "dostępu kapitału" u(Xt, zt), która może zależeć zarówno od Xt, jak i sygnałów zt. Parametry φ i λ mogą być funkcjami zmiennymi w czasie, zależnymi od sygnałów zt. W tym przypadku rozważamy ograniczony przypadek, kiedy traktujemy je jako stałe parametry, co może być rozsądne założenie w okresie, kiedy reżim ekonomiczny nie zmienia się znacznie w analizowanym okresie danych.

Podstawiając wyrażenie ut do wcześniejszych równości, zaniedbując wyrazy rzędu O(ut)² i przyjmując limit ciągłego czasu ut → dt, uzyskujemy model "Quantum Equilibrium-Disequilibrium" (QED) (Halperin i Dixon, 2020):

dXt=κXtgXt2dtXtdt+σXtdWt+wztκdt.dX_t = \kappa X_t - g X_t^2 dt - X_t \, dt + \sigma X_t dW_t + w z_t \kappa \, dt.

Gdzie Wt to standardowy ruch Browna, a parametry g, κ i θ są zdefiniowane następująco:

g=μλ,κ=μϕλ,θ=rfc+ϕ.g = \mu \lambda, \, \kappa = \mu \phi - \lambda, \, \theta = r_f - c + \phi.

Jeżeli utrzymamy μ > 0, wtedy parametr rewersji średniej κ może przyjąć wartości zarówno dodatnie, jak i ujemne, zależnie od wartości φ i λ. Jeżeli φ < λ/μ, wtedy κ < 0, w przeciwnym razie dla φ ≥ λ/μ uzyskujemy κ ≥ 0.

Równanie to z g = 0 jest znane w fizyce i biologii jako model wzrostu populacji Verhulsta z hałasem multiplikatywnym, który zazwyczaj jest zapisywany w formie równoważnej, uzyskanej przez liniową skalowanie zmiennej zależnej Xt, co powoduje, że współczynnik przy wyrazie X_t^2 równa się 1. Należy zauważyć, że wyrazy wyższych rzędów w dryfie w tym równaniu odpowiadają za możliwą saturację procesu. W dynamice populacji odpowiada to konkurencji populacji o ograniczone zasoby żywności. W kontekście finansowym oznacza to ograniczoną całkowitą wielkość majątku na rynku bez zewnętrznego zastrzyku kapitałowego.

Równanie Langevina

Równanie (12.3) jest szczególnym przypadkiem równania Langevina:

dxt=U(xt)dt+σxtdWt,d x_t = - U'(x_t) dt + \sigma x_t dW_t,

które opisuje nadhamowaną cząstkę Brownowską w zewnętrznym potencjale U(x), którego gradient daje składnik dryfu w równaniu, w obecności hałasu multiplikatywnego. Równanie Langevina zostało nazwane na cześć Paula Langevina, którego praca z 1908 roku rozszerzyła model swobodnej dyfuzji Brownowskiej opracowany przez Alberta Einsteina w 1905 roku. Model Einsteina dotyczy cząstki Brownowskiej, której przypadkowa dynamika jest napędzana interakcjami z innymi cząstkami tego samego rodzaju. W rozszerzeniu Langevina zbiorowy wpływ innych cząsteczek (np. oddziaływanie dużych cząsteczek na dynamikę małych cząsteczek w roztworze) lub zewnętrznych pól (np. pole elektryczne działające na naładowaną cząstkę) jest kodowany w potencjale U(x).

Przykład prostego potencjału stanowi funkcja kwadratowa:

U(x)=m2x2,U(x) = \frac{m}{2} x^2,

gdzie m jest parametrem. Taki potencjał nazywany jest potencjałem oscylatora harmonicznego w fizyce. Potencjał ten jest wypukły i ma jedyny punkt minimalny (punkt stabilny) w x = 0. Podstawiając ten potencjał do ogólnego równania Langevina, otrzymujemy:

dxt=mxtdt+σxtdWt.d x_t = - m x_t dt + \sigma x_t dW_t.

To równanie opisuje cząstkę (oscylator harmoniczny) o masie m, która podlega kombinacji deterministycznego składnika liniowego - m x_t oraz składnika dyfuzji proporcjonalnego do x_t. W fizyce przypadek potencjału oscylatora harmonicznego zwykle traktuje się jako rozwinięcie kwadratowe bardziej ogólnego nieliniowego potencjału U(x), takiego jak:

U(x)=u0+u1x+u2x2+...,U(x) = u_0 + u_1 x + u_2 x^2 + ...,

gdzie zaniedbujemy wyrazy wyższych rzędów (O(x³) i wyższe potęgi zmiennej x). Okazuje się, że te wyższe wyrazy zwykle odpowiadają za interakcje, które definiują strukturę i stabilne stany w złożonych układach fizycznych.

Model GBM jako równanie Langevina

Jeśli traktujemy zmienną stanu x_t w ogólnym równaniu Langevina jako cenę akcji S_t, wygląda to bardzo podobnie do równania modelu geometrycznego ruchu Browna (GBM):

dSt=μStdt+σStdWt.d S_t = \mu S_t dt + \sigma S_t dW_t.

W tym przypadku model GBM może być traktowany jako liniowa specyfikacja, gdzie μ(S_t) = μ S_t oraz σ(S_t) = σ S_t dla ogólnej dyfuzji Itô:

dSt=μ(St)dt+σ(St)dWt.d S_t = \mu(S_t) dt + \sigma(S_t) dW_t.

Choć oba równania (12.5) i (12.8) wyglądają bardzo podobnie, podstawiając x_t = S_t i ustawiając m = μ, istnieje kluczowa różnica: znak 2

Model QED jako równanie Langevina

W przeciwieństwie do modelu GBM, który opisuje dynamikę globalnie niestabilną, model QED w równaniu (12.3) opisuje potencjał czwórkowy:

U(x)=12θx2+13κx3+gx4.U(x) = -\frac{1}{2} \theta x^2 + \frac{1}{3} \kappa x^3 + g x^4.

Porównując ten potencjał z potencjałem U(x) = -\frac{1}{2} \mu x^2 w modelu GBM, oba wyrażenia są równoważne, jeśli ustawimy θ = μ oraz przyjmiemy granicę κ → 0, g → 0.

Podsumowując, mechanizmy stabilizacyjne zawarte w modelu QED są kluczowe dla zapobiegania długotrwałej niestabilności dynamiki, która w przeciwnym razie prowadziłaby do błędnych prognoz w rynkach finansowych.

Jak Modele Autoregresywne i Maksymalna Wiarygodność Wpływają na Prognozowanie w Szeregach Czasowych?

Modele autoregresywne (AR) stanowią fundament w analizie szeregów czasowych, umożliwiając przewidywanie przyszłych wartości na podstawie wcześniejszych obserwacji. W przypadku procesu AR(1), zmienne w szeregu czasowym zależą liniowo od jednej poprzedniej wartości oraz błędu szumów. W kontekście tych procesów istnieje szereg charakterystycznych właściwości, które powinien zrozumieć każdy, kto pracuje z modelami szeregów czasowych.

W procesie AR(1) autocorelacja drugiego opóźnienia, oznaczana jako τ̃2, jest równa zero. Oznacza to, że nie ma istotnej zależności pomiędzy zmiennymi w dwuokresowym opóźnieniu, co wynika z natury tego procesu. Istnieje również możliwość przedstawienia tej zależności przez autokowariancję częściową. Autokowariancja częściowa opóźnienia drugiego w procesie AR(1) także wynosi zero, co wskazuje na brak związku między wartościami w dwóch odstępach czasowych, gdy uwzględni się już wpływ jednego opóźnienia. Takie właściwości są kluczowe w kontekście modelowania szeregów czasowych, ponieważ wskazują na ograniczenia w stosowaniu klasycznych technik analizy, zwłaszcza w przypadku wyższych opóźnień.

Kiedy rozważamy szereg czasowy w kontekście estymacji maksymalnej wiarygodności, istotnym punktem jest założenie, że rozkład danych jest niezależny od parametrów modelu. W przypadku, gdy dane są niezależne od parametrów (takich jak φ i σ²), funkcja wiarygodności jest proporcjonalna do funkcji warunkowej wiarygodności, co upraszcza proces estymacji. Takie podejście, mimo że upraszcza obliczenia, może w praktyce nie przynieść dużej przewagi w porównaniu z podejściem, które zakłada pełną zależność danych od parametrów.

Z kolei w analizie szeregów czasowych heteroskedastyczność jest istotnym problemem, który może wystąpić, gdy zmienność błędów nie jest stała w czasie. W modelach AR, zakładających i.i.d. (niezależne i identycznie rozłożone) błędy, heteroskedastyczność może zostać uwzględniona przez rozważenie modelu AR(p) z heteroskedastycznością. W takim modelu, różna wariancja szumów w różnych punktach czasowych jest traktowana jako zależna od czasu, co pozwala na bardziej precyzyjne odwzorowanie rzeczywistych procesów gospodarczych, finansowych i innych, gdzie zmienność jest zmienna w czasie.

Kiedy mówimy o heteroskedastyczności, warto zaznaczyć, że modelowanie takich procesów jest znacznie bardziej skomplikowane. Procedura estymacji w takich modelach wymaga dwóch kroków: najpierw estymacji błędów przy założeniu ich niezależności, a następnie estymacji parametrów modelu, uwzględniając czasową zależność błędów. Jest to bardziej skomplikowane, ponieważ konieczne jest rozwiązanie macierzy kowariancji, co w przypadku dużych szeregów czasowych może stać się obliczeniowo nieosiągalne.

W kontekście heteroskedastyczności, modele GARCH (Generalized Autoregressive Conditional Heteroskedasticity) są niezwykle przydatne, zwłaszcza w analizie finansowej. Model GARCH pozwala na modelowanie zmienności, traktując ją jako funkcję zależną od przeszłych wartości zmienności i błędów. Jest to szczególnie użyteczne w prognozowaniu ryzyka i zmienności na rynkach finansowych. Model ten daje wyraźną relację między zmiennością a przeszłymi zmiennościami, co pozwala na przewidywanie przyszłych poziomów zmienności na podstawie wcześniejszych obserwacji.

Pomimo tego, że modele GARCH i inne modele heteroskedastyczności są bardzo efektywne w przewidywaniu zmienności, ich stosowanie wymaga wystarczająco dużego okresu próby, aby uzyskać wiarygodne prognozy. Ponadto, wykorzystanie wariancji próby w takich modelach jest tylko odpowiednie wtedy, gdy próbka danych jest wystarczająco duża, co z kolei może ograniczać ich praktyczne zastosowanie w krótkoterminowych prognozach.

Warto również dodać, że modele AR i MA (średnia ruchoma) często współpracują w ramach bardziej złożonych modeli ARMA czy ARIMA, które wykorzystują zarówno opóźnione wartości zmiennych, jak i błędy z przeszłości, aby stworzyć bardziej elastyczny model szeregów czasowych. W połączeniu te modele umożliwiają uwzględnienie bardziej skomplikowanych zależności czasowych, co daje szersze możliwości prognozowania i analizy szeregów czasowych.

Zrozumienie mechanizmów stojących za tymi modelami, zwłaszcza w kontekście heteroskedastyczności i metod estymacji, jest kluczowe dla dokładności przewidywań. Współczesne techniki wymagają ciągłego rozwoju i dostosowywania do rzeczywistych danych, które często nie spełniają założeń klasycznych modeli. Niezależnie od tego, czy mówimy o modelach AR, GARCH czy bardziej zaawansowanych podejściach, każda z tych metod ma swoje ograniczenia i musi być stosowana w kontekście specyficznych właściwości danych oraz problemów, które są analizowane.

Jak zastosować metodę iteracji wartości w rozwiązywaniu problemów z kontrolą optymalną w dużych przestrzeniach stanów?

W algorytmach optymalnej kontroli, metoda iteracji wartości jest jednym z klasycznych narzędzi wykorzystywanych do rozwiązywania problemów Markovowskich Procesów Decyzyjnych (MDP). Główną ideą tej metody jest dążenie do znalezienia optymalnej funkcji wartości stanu V(s)V^*(s), co pozwala w konsekwencji wyznaczyć optymalną politykę π\pi^*. Proces iteracji wartości jest oparty na równaniu Bellmana, które w każdym kroku iteracyjnym aktualizuje wartość funkcji stanu na podstawie poprzednich obliczeń, co w końcu prowadzi do konwergencji do optymalnego rozwiązania.

Podstawowy algorytm iteracji wartości rozpoczyna się od inicjalizacji funkcji wartości V(s)=V(0)(s)V(s) = V(0)(s) dla wszystkich stanów ss. Następnie w każdym kroku iteracyjnym stosuje się równanie optymalności Bellmana:

V(k)(s)=maxa[sp(ss,a)(R(s,a,s)+γV(k1)(s))],V^{(k)}(s) = \max_{a} \left[ \sum_{s'} p(s' | s, a) \left( R(s, a, s') + \gamma V^{(k-1)}(s') \right) \right],

gdzie p(ss,a)p(s' | s, a) to prawdopodobieństwo przejścia do stanu ss' z ss przy akcjach aa, R(s,a,s)R(s, a, s') to nagroda, a γ\gamma to współczynnik dyskontowy. Wartość funkcji stanu dla danego stanu ss w iteracji kk zależy od wartości funkcji w poprzednich iteracjach oraz od maksymalnej nagrody, którą agent może uzyskać z wyboru akcji aa.

Iteracja wartości może być realizowana na dwa sposoby. Pierwsza opcja to aktualizacja funkcji wartości w sposób synchroniczny, gdzie wszystkie stany są obliczane i aktualizowane jednocześnie. Druga opcja to aktualizacja asynchroniczna, w której funkcja wartości jest obliczana i aktualizowana dla każdego stanu z osobna, co pozwala zaoszczędzić czas obliczeniowy w przypadkach, gdy tylko część stanów ma istotny wpływ na wynik końcowy. Asynchroniczna metoda jest szczególnie użyteczna w przypadkach, gdy przestrzeń stanów jest bardzo duża, a pełna aktualizacja wszystkich stanów mogłaby być zbyt kosztowna.

Należy zauważyć, że choć algorytm iteracji wartości jest prosty i skuteczny w przypadku małych przestrzeni stanów, to staje się niepraktyczny w obliczeniach przy dużych przestrzeniach stanów i akcji. Zjawisko to jest znane jako "klątwa wymiarowości", która sprawia, że obliczenia stają się zbyt kosztowne zarówno pod względem pamięci, jak i czasu obliczeniowego, zwłaszcza w problemach z dużymi lub ciągłymi przestrzeniami stanów.

W takich przypadkach klasyczne metody dynamicznego programowania (DP), jak iteracja polityki czy iteracja wartości, stają się niepraktyczne. Z tego powodu opracowano metody uczenia przez wzmacnianie (RL), które odpowiadają na wyzwania związane z wysoką wymiarowością przestrzeni stanów. Uczenie przez wzmacnianie korzysta z próbnych próbek z danych, co umożliwia pracę z przestrzeniami stanów o bardzo dużych wymiarach. Dzięki temu algorytmy oparte na RL, w połączeniu z technikami przybliżenia funkcji, potrafią radzić sobie z ciągłymi, wielowymiarowymi przestrzeniami stanów i akcji.

W kontekście rozwiązywania takich problemów, podejście RL może być połączone z metodami przybliżenia funkcji, które pozwalają na użycie mniejszej liczby parametrów niż w klasycznym podejściu DP. Takie podejście prowadzi do tzw. "przybliżonego programowania dynamicznego", które jest stosowane, gdy przestrzeń stanów jest zbyt duża, aby zastosować tradycyjne metody DP. W takim przypadku, zamiast dokładnych obliczeń wartości funkcji dla wszystkich stanów, przybliżone metody RL opierają się na próbkach z danych i są bardziej skalowalne w przypadku problemów o dużej złożoności.

Jest to istotne, ponieważ w problemach o dużych przestrzeniach stanów tradycyjne podejście DP, które ma na celu dokładne obliczenie funkcji wartości dla wszystkich punktów przestrzeni stanów, może okazać się nieefektywne i zbyt kosztowne. W takich przypadkach często wystarczające jest przybliżenie tej funkcji za pomocą mniejszej liczby parametrów, co stwarza realną możliwość rozwiązywania problemów o wysokiej wymiarowości.

Warto również zauważyć, że uczenie przez wzmacnianie jest bardziej elastyczne w kontekście przestrzeni stanów o ciągłych wartościach, w przeciwieństwie do klasycznego podejścia DP, które lepiej sprawdza się w przypadku dyskretnych przestrzeni stanów i akcji. Dzięki tym właściwościom, RL staje się szczególnie użyteczne w zastosowaniach, gdzie klasyczne metody DP napotykają na trudności.

Na przykładzie symulowanego problemu finansowego, jakim jest model "financial cliff walking", widać, jak techniki RL mogą być użyte do rozwiązania problemów o dużych przestrzeniach stanów, takich jak zarządzanie finansami domowymi. W tym przypadku, agent RL uczy się optymalnej polityki depozytowej w celu uniknięcia bankructwa i uzyskania pozytywnej nagrody na końcu okresu.

Wnioskiem jest, że podczas gdy klasyczne metody DP, takie jak iteracja wartości, oferują solidną podstawę do rozwiązywania problemów optymalnej kontroli w małych przestrzeniach stanów, to w przypadku dużych lub ciągłych przestrzeni stanów i akcji konieczne staje się zastosowanie podejścia opartego na uczeniu przez wzmacnianie, które jest bardziej elastyczne i skalowalne. Dzięki takim rozwiązaniom możliwe jest rozwiązanie problemów, które wcześniej byłyby nierealne do przeanalizowania przy pomocy tradycyjnych metod.