Black-Scholes PDE może być wyprowadzony poprzez analizę portfela zabezpieczającego w czasie dyskretnym z krokami czasowymi Δt, a następnie przyjęcie granicy ciągłego czasu, gdy Δt → 0. Pokazuje się, że wynikający z tego model Blacka-Scholesa (BSM) w ciągłym czasie nie jest problemem podejmowania decyzji sekwencyjnych i w ogólnym przypadku nie redukuje się do żadnego rodzaju problemu optymalizacyjnego. Niemniej jednak, na rynkach opcji, przegrupowanie portfela replikującego (zabezpieczającego) opcję odbywa się z określoną częstotliwością, na przykład codziennie. Częste przegrupowywanie może być kosztowne z powodu kosztów transakcyjnych, które są pomijane w klasycznym modelu BSM. Po uwzględnieniu kosztów transakcyjnych, formalna granica w czasie ciągłym może w ogóle nie istnieć, ponieważ prowadzi to do teoretycznie nieskończonych cen opcji z powodu nieskończonej liczby działań przegrupowania portfela. Przy skończonej częstotliwości przegrupowań, idealna replikacja przestaje być możliwa, a portfel replikujący będzie generalnie różny od wartości opcji w zależności od wielkości błędu zabezpieczenia. Ten ostatni zależy od rozwoju ceny akcji pomiędzy kolejnymi aktami przegrupowania portfela.

W związku z tym, w przypadku braku doskonałej replikacji, pozycja opcji zabezpieczona wiąże się z pewnym ryzykiem błędnej ochrony, za które kupujący lub sprzedający opcję powinni być wynagrodzeni. Oznacza to, że po powrocie z idealizowanego ustawienia finansów w czasie ciągłym do realistycznego ustawienia finansów w czasie dyskretnym, wycena opcji staje się zależna od preferencji ryzyka inwestorów. Jeżeli przyjmiemy perspektywę agenta sprzedającego opcję w takim ustawieniu dyskretnym, jego celem powinno być minimalizowanie miar ryzyka błędu zabezpieczenia, określanego również jako „koszt zabezpieczenia skorygowany o ryzyko” poprzez dynamiczną replikację opcji.

Patrząc na całe życie opcji, takie ustawienie może być traktowane jako proces podejmowania decyzji sekwencyjnych mający na celu minimalizowanie kosztów błędu zabezpieczenia (lub równoważnie maksymalizowanie nagród określonych jako negatywne koszty). Choć takie podejście w czasie dyskretnym zbiega do formuły Blacka-Scholesa w granicy malejących kroków czasowych, oferuje ono zarówno bardziej realistyczne ustawienie, jak i pozwala skupić się na kluczowym celu handlu opcjami i ich wyceny, jakim jest minimalizacja ryzyka poprzez zabezpieczenie w procesie podejmowania decyzji sekwencyjnych. To sprawia, że wycena opcji staje się możliwa do rozwiązania metodami uczenia przez wzmacnianie (reinforcement learning, RL), a rzeczywiście, jak pokażemy poniżej, wycena opcji i zabezpieczenie w czasie dyskretnym sprowadza się do zadania uczenia przez wzmacnianie.

Ujęcie wyceny opcji jako zadania uczenia przez wzmacnianie daje kilka interesujących wniosków. Po pierwsze, jeśli wybierzemy konkretny model dla dynamiki cen akcji, możemy użyć modelowego uczenia przez wzmacnianie jako potężnej próbki opartej na metodzie Monte Carlo do obliczania cen opcji i współczynników zabezpieczeń. Tego rodzaju podejście może być korzystne w porównaniu z innymi metodami numerycznymi, takimi jak metody różnic skończonych, zwłaszcza gdy wymiarowość przestrzeni stanów przekracza trzy lub cztery. Po drugie, możemy polegać na metodach model-free reinforcement learning, takich jak Q-learning, i pominąć potrzebę budowy modelu dynamiki cen akcji. RL oferuje ramy do model-free nauki cen opcji i zabezpieczeń.

Choć rozważamy tu najprostsze ustawienie podejścia uczenia przez wzmacnianie do wyceny i zabezpieczania opcji europejskich (np. opcji put lub call), podejście to można w prosty sposób rozszerzyć na bardziej złożone instrumenty, w tym opcje na wiele aktywów, wcześniejsze wykonania, portfele opcji, tarcia rynkowe i inne. Model przedstawiony w tym rozdziale nosi nazwę modelu QLBS, nawiązując do faktu, że łączy metodę Q-learning Watkinsa (1989); Watkins i Dayan (1992) z metodą dynamicznej replikacji opcji w modelu Black-Scholesa w czasie dyskretnym. Ponieważ Q-learning jest metodą bezmodelową, oznacza to, że model QLBS jest również bezmodelowy. Dokładniej rzecz ujmując, jest to model bez rozkładu: ceny opcji w tym podejściu zależą od wybranej funkcji użyteczności, ale nie polegają na żadnym modelu rozkładu cen akcji, a zamiast tego wykorzystują jedynie próbki z tego rozkładu. Model QLBS może być również interesujący jako model finansowy, który odnosi się do literatury na temat zabezpieczeń i wyceny w rynkach niedoskonałych (Föllmer i Schweizer 1989; Schweizer 1995; Cerný i Kallsen 2007; Potters et al. 2001; Petrelli et al. 2010; Grau 2007). W przeciwieństwie do wielu wcześniejszych modeli tego typu, QLBS zapewnia pełną spójność zabezpieczania i wyceny w każdym kroku czasowym, wszystko to w ramach efektywnego algorytmu Q-learning opartych na danych.

Dodatkowo, model ten rozszerza model BSM w czasie dyskretnym. Rozszerzając teorię portfela Markowitza (Markowitz 1959) do ustawienia wielookresowego, sekcja 3 uwzględnia dryft w analizie ryzyka/zwrotu portfela zabezpieczającego opcję. To rozszerzenie pozwala na rozważenie zarówno zabezpieczania, jak i spekulacji opcjami w spójny sposób w ramach tego samego modelu, co stanowi wyzwanie dla standardowego modelu BSM lub jego "fenomenologicznych" uogólnień, zob. np. Wilmott (1998). Zgodnie z tym podejściem okazuje się, że wszystkie wyniki klasycznego modelu BSM (Black i Scholes 1973; Merton 1974) mogą być uzyskane jako granica czasowa Δt → 0 wielookresowej wersji teorii portfela Markowitza (Markowitz 1959), jeśli dynamika cen akcji jest log-normalna, a portfel inwestycyjny jest samoreplikujący się. Niemniej jednak, ta granica jest degenerowana: wszystkie fluktuacje „prawdziwej” ceny opcji asymptotycznie zanikają w tej granicy, prowadząc do deterministycznej ceny opcji, która jest niezależna od preferencji ryzyka inwestora.

Warto zauważyć, że dopóki krok czasowy Δt jest utrzymany w formie skończonej, zarówno ryzyko błędnego zabezpieczenia opcji, jak i zależność ceny opcji od preferencji ryzyka inwestora pozostają istotne. W takim przypadku, wycena opcji w czasie dyskretnym odpowiada albo DP (czyli modelowemu RL), jeżeli model jest znany, albo RL, jeżeli model nie jest znany. Można powiedzieć, że klasyczny ciągły model BSM odpowiada granicy ciągłego modelu uczenia przez wzmacnianie opartego na modelu. W tej granicy wszystkie wymagania dotyczące danych sprowadzają się jedynie do dwóch liczb—aktualnej ceny akcji i zmienności.

Czy sieci neuronowe to tylko inne wersje klasycznych metod uczenia nadzorowanego?

W szczególnych warunkach wielowarstwowe perceptrony (MLP) stają się funkcjonalnie równoważne innym technikom uczenia maszynowego. Sieć bez warstwy ukrytej to w istocie regresja liniowa lub logistyczna, zależnie od funkcji aktywacji. Gdy dodana zostaje jedna warstwa ukryta, MLP zaczyna przypominać regresję typu projection pursuit regression (PPR): dane wejściowe są rzutowane na hiperpłaszczyznę, przekształcane nieliniowo do przestrzeni cech, a następnie przechodzą przez transformację afiniczną. Ta koncepcja rzutowania do przestrzeni cech poprzez warstwę ukrytą przypomina metody jądrowe, takie jak maszyny wektorów nośnych (SVM), które także dokonują odwzorowania do przestrzeni jądrowej, by dopiero tam przeprowadzić klasyfikację lub regresję.

Niektóre uproszczone formy sieci, takie jak jednowarstwowe MLP, mogą zostać wyrażone jako wzmocnione drzewa decyzyjne pierwszego poziomu (boosted decision stumps). Choć podobieństwa te są koncepcyjnie pomocne, należy zachować ostrożność przy ich nadmiernym uogólnianiu. Pomimo zbliżonego podejścia do transformacji danych, różnice w klasach funkcji nieliniowych oraz w algorytmach uczenia pozostają istotne. W PPR funkcje nieliniowe mogą być inne dla każdej kombinacji zmiennych wejściowych i są szacowane sekwencyjnie, przed aktualizacją wag. W MLP funkcje aktywacji są ustalone, a wszystkie wagi w danej warstwie uczone są równocześnie.

Głębokie uczenie pozostaje podejściem silnie opartym na danych, w którym kluczową rolę odgrywa regularizacja oraz procedury takie jak dropout, redukujące nadmierne dopasowanie. Dwa główne etapy to: faza treningu, gdzie dopasowujemy dane wejściowe do oczekiwanych wyjść (często poprzez metody minimalizacji, np. najmniejszych kwadratów), oraz faza walidacji i testowania, w której mierzymy zdolność generalizacji modelu na danych spoza próby uczącej. W praktyce często stosuje się dodatkowy podział walidacji na estymację dokładności (walidacja) oraz wybór najlepszego modelu (weryfikacja), co umożliwia selekcję spośród wielu rywalizujących podejść.

W najprostszym ujęciu uczenie sprowadza się do rozwiązania zadania optymalizacyjnego: minimalizacji funkcji straty L(Y,Y^)L(Y, \hat{Y}), uzupełnionej o karę regularizacyjną ϕ(W,b)\phi(W, b). Wartością straty może być, na przykład, norma L2 dla regresji (YY^2||Y - \hat{Y}||^2), negatywna entropia krzyżowa dla klasyfikacji binarnej (YlogY^-Y \log \hat{Y}), bądź jej uogólnienie w postaci softmaxu dla problemów wieloklasowych.

Sieci uczone są przez propagację wsteczną, w której gradient funkcji straty obliczany jest zgodnie z regułą łańcuchową. Parametry wag aktualizowane są zazwyczaj metodą stochastycznego spadku gradientu. Funkcja aktywacji w wyjściu, taka jak softmax, pozwala na odwzorowanie wyniku klasyfikacji do przestrzeni prawdopodobieństw.

Zwraca się także uwagę na problem homoskedastyczności – zakładanie stałego rozkładu błędów dla wszystkich obserwacji. Choć można to założenie rozluźnić przez ważenie obserwacji, klasyczne procedury optymalizacji bazują na jednakowym traktowaniu każdej próbki.

Warto podkreślić, że architektura sieci wpływa nie tylko na ekspresywność funkcji odwzorowującej, lecz również na jej właściwości analityczne. Przykładowo, jeśli wszystkie funkcje aktywacji są monotonicznie rosnące, a wagi nieujemne, to wyjście sieci również jest funkcją monotonicznie rosnącą względem wejścia. Jednak, mimo pozornego wpływu biasów jedynie na przesunięcie wyjścia, mają one także wpływ pośredni na pochodne, co obala błędne przekonanie o ich neutralności w analizie czułości.

Przy porównywaniu MLP z innymi podejściami, jak LASSO, ridge regression, drzewa decyzyjne, regresja jądrowa czy k-najbliższych sąsiadów, warto dostrzec, że sieci neuronowe nie tylko łączą cechy globalnych i lokalnych predyktorów, ale również mogą funkcjonować jako kombinatoryczne modele mieszane, analogicznie do boosting’u, bagging’u czy metod zespołowych.

Warto dodać, że skuteczność sieci głębokich nie wynika jedynie z ich warstwowości, ale z synergii pomiędzy parametryzacją, nieliniowością, regularizacją oraz algorytmem uczenia. Sama liczba poziomów czy neuronów to za mało – kluczowe są relacje pomiędzy elementami architektury oraz ich wpływ na zdolność uogólniania. Zrozumienie tej dynamiki to warunek świadomego projektowania modeli w praktyce.

Jak modele głębokiego uczenia w analizie czynników wpływają na wybór akcji?

Modele głębokiego uczenia, takie jak sieci neuronowe, znajdują zastosowanie w analizie czynników decydujących o wartości akcji. Są to narzędzia, które mogą w znaczący sposób zmienić sposób, w jaki analizujemy dane finansowe i podejmujemy decyzje inwestycyjne. Tradycyjne metody, takie jak regresja liniowa (OLS), są nadal szeroko stosowane, jednak w ostatnich latach coraz więcej uwagi poświęca się zaawansowanym algorytmom, które umożliwiają lepsze modelowanie złożonych zależności w danych.

Wykorzystując metodologię opartą na głębokim uczeniu, można przeprowadzić bardziej skomplikowaną analizę, uwzględniającą nieliniowe interakcje między różnymi czynnikami. Przykład stanowi sieć neuronowa z dwiema warstwami ukrytymi, której zadaniem jest przewidywanie zwrotów aktywów na podstawie miesięcznych danych historycznych. Zastosowanie funkcji aktywacji tanh oraz regularizacji L1 w procesie uczenia pozwala uzyskać wyniki, które są bardziej odporne na przeuczenie, jednocześnie minimalizując błąd predykcji.

Porównując wyniki regresji OLS z modelem głębokiego uczenia, można zauważyć, że sieć neuronowa uzyskuje nieznacznie lepsze wyniki w prognozowaniu wyników "out-of-sample". Chociaż w przypadku tego badania różnice te są marginalne, w bardziej złożonych zadaniach analitycznych przewaga sieci neuronowych staje się wyraźniejsza. Wartość tego podejścia widać w takich aspektach, jak ocena wpływu różnych czynników na decyzje inwestycyjne. Analizując rozkład wrażliwości czynników na zmiany rynkowe, sieci neuronowe wykazują mniejszą wrażliwość na zmiany niż klasyczna regresja OLS, co może sugerować ich większą stabilność w długoterminowej perspektywie.

Znacznie lepsze wyniki uzyskuje się przy wykorzystaniu szerszego zbioru danych. Modele głębokiego uczenia zyskują na znaczeniu w przypadku pracy z większymi zestawami danych, gdzie klasyczna analiza OLS może napotkać trudności. Użycie 50 czynników w modelu z 3290 akcjami z indeksu Russell 3000 pokazuje, jak sieci neuronowe mogą przewidywać lepsze wyniki portfeli inwestycyjnych, a także generować wyższe wskaźniki informacji w porównaniu do tradycyjnych metod.

Jeśli chodzi o same czynniki wykorzystywane w analizach, warto zauważyć, że obejmują one zarówno wskaźniki finansowe, takie jak wskaźnik ceny do księgowej wartości (P/B), wskaźnik ceny do sprzedaży (P/S) czy rentowność operacyjną (EBITDA), jak i inne, bardziej złożone czynniki makroekonomiczne, takie jak zmienność zysków, dynamika sprzedaży czy wskaźniki aktywności handlowej. Oczywiście, odpowiedni dobór czynników ma kluczowe znaczenie. Zbyt proste modele, oparte na niewielkiej liczbie zmiennych, mogą nie uwzględniać pełnej dynamiki rynku, podczas gdy dodanie kolejnych zmiennych zwiększa złożoność modelu, ale i jego skuteczność.

Chociaż wyniki analiz oparte na modelach głębokiego uczenia w kontekście portfeli inwestycyjnych są obiecujące, warto podkreślić, że nie jest to panaceum na wszystkie problemy. Tego typu modele mają swoje ograniczenia, zwłaszcza gdy dane wejściowe są niekompletne lub błędne. Modele te są także podatne na zmienność i mogą wymagać częstych aktualizacji, aby dostosować się do nowych warunków rynkowych. Warto również zauważyć, że interpretacja wyników modelu głębokiego uczenia bywa trudniejsza niż w przypadku klasycznych metod analitycznych, co może stanowić wyzwanie dla inwestorów, którzy nie mają zaawansowanego doświadczenia w zakresie analizy danych.

Oprócz samego modelowania ważne jest zrozumienie, jak te technologie mogą zmieniać sposób, w jaki postrzegamy rynki finansowe. Deep learning oferuje nie tylko bardziej precyzyjne prognozy, ale także umożliwia dostrzeganie wzorców i zależności, które byłyby trudne do wychwycenia przy użyciu tradycyjnych metod. To nowe podejście wymaga od inwestorów większej elastyczności i umiejętności pracy z bardziej złożonymi danymi.

Jakie monety dealer może używać, aby przewidzieć wynik rzutu, uwzględniając prawdopodobieństwo zmiany monet?

Dealer posiada dwie monety: jedną uczciwą, w której prawdopodobieństwo wyrzucenia reszki (Heads) wynosi P(Heads)=12P(Heads) = \frac{1}{2}, oraz monetę z obciążeniem, gdzie P(Heads)=45P(Heads) = \frac{4}{5}. Początkowo dealer wybiera uczciwą monetę z prawdopodobieństwem 35\frac{3}{5}. Po każdym rzucie istnieje 2/5 prawdopodobieństwo, że dealer przełączy się na drugą monetę. Sekwencja wyników rzutów to: Heads, Tails, Tails, Heads, Tails, Heads, Heads, Heads, Tails, Heads.

W takim przypadku możemy wykorzystać algorytm Viterbi’ego, aby ustalić, która moneta była najbardziej prawdopodobna w danym momencie rzutu. Viterbi jest stosowany w modelach ukrytych procesów Markowa (HMM), gdzie ukryte stany (w tym przypadku, wybór monety) przechodzą w czasie, a obserwacje (wyniki rzutów) zależą od tych stanów. Aby znaleźć najbardziej prawdopodobną sekwencję stanów, należy iteracyjnie obliczać prawdopodobieństwa dla każdego możliwego stanu, uwzględniając nie tylko same obserwacje, ale i prawdopodobieństwo przejścia między stanami (zmiana monety lub pozostanie przy tej samej).

W tym przypadku, przy rozważaniu dwóch monet, dla każdej monety będziemy musieli uwzględnić prawdopodobieństwo przejścia (2/5) i prawdopodobieństwo pozostania (3/5). Następnie, w ramach algorytmu Viterbi’ego, dla każdego rzutu będziemy obliczać prawdopodobieństwo przypisania go do jednej z dwóch monet i w ten sposób rekonstruować sekwencję wyboru monety, którą dealer stosował przy każdym rzucie.

Ważnym elementem w tym procesie jest rozróżnienie między statystykami teoretycznymi (prawdopodobieństwami monety) a faktycznymi wynikami rzutów, które mogą być zmienne i nie zawsze idealnie pasują do założonego modelu. Dlatego zastosowanie algorytmu Viterbi’ego pozwala na uzyskanie najbardziej prawdopodobnej sekwencji stanów, bazując na danych, które mogą być narażone na błędy wynikające z losowości rzutów.

Dodatkowo, warto zauważyć, że prawdopodobieństwo zmiany monety w tym modelu ma duże znaczenie w kontekście dynamiki procesów decyzyjnych. W rzeczywistości, zmiana monety w czasie może nie być jedynie procesem probabilistycznym, ale może być również wynikiem analizy wyników poprzednich rzutów, które mogą wpływać na przyszłe decyzje dealera. Takie podejście pokazuje, jak zmieniające się warunki w grze mogą być modelowane przy użyciu bardziej zaawansowanych algorytmów, co jest istotne nie tylko w kontekście prostych gier losowych, ale także w bardziej złożonych systemach decyzyjnych, takich jak analiza finansowa czy prognozowanie.

Na przykład, jeśli dealer używa modelu opartego na dwóch monetach, jego decyzja o przełączeniu się może zależeć od jakichś zewnętrznych czynników, których nie uwzględniamy w klasycznym modelu Markowa. Może to być zależność od wyników wcześniejszych rzutów, zewnętrznych obserwacji lub innych czynników zewnętrznych. Również warto zauważyć, że przy długich ciągach rzutów można zaobserwować pewne regularności, które mogą wskazywać na zmianę strategii lub preferencji w wyborze monet.