Optymalna strategia zabezpieczająca w dyskretnym czasie może być obliczona analitycznie poprzez ustawienie pochodnej funkcji kosztów do zera. Z tego wynika, że optymalna strategia hedge'u (u%) w czasie t, dla ceny aktywa S_t, jest opisana wzorem:

ut(St)=Cov(ΔSt+1,ΔStFt)Var(ΔStFt)u_t(S_t) = \frac{\text{Cov}(\Delta S_{t+1}, \Delta S_t | F_t)}{\text{Var}(\Delta S_t | F_t)}

gdzie ΔSt+1\Delta S_{t+1} to zmiana ceny aktywa w kolejnym kroku czasowym, a FtF_t to zbiór dostępnych informacji w czasie t. Obliczenia te są związane z jednoczesnymi oczekiwaniami warunkowymi na moment t+1t+1, które zależą od tego, czy przestrzeń stanów jest ciągła, czy dyskretna.

W przypadku przestrzeni stanów dyskretnej, te oczekiwania warunkowe są sumami skończonymi, opartymi na prawdopodobieństwach przejścia w modelu Markowa. Natomiast w przypadku przestrzeni stanów ciągłych, te oczekiwania mogą być obliczane w symulacjach Monte Carlo, z wykorzystaniem rozszerzeń bazowych funkcji, podobnych do metody LSMC Longstaffa i Schwartza (2001) lub metod MC opartych na mierze rzeczywistej (Grau, 2007; Petrelli i in., 2010).

Cenę opcji w czasie t możemy zdefiniować jako wartość oczekiwaną portfela zabezpieczającego CtC_t:

Ct=E[C~tFt]C_t = \mathbb{E} [ \tilde{C}_t | F_t ]

Wykorzystując wzór (10.5) oraz prawo wieży oczekiwań warunkowych, otrzymujemy równanie:

Ct=E[erΔtC~t+1Ft+1]ut(St)E[ΔStFt]C_t = \mathbb{E} \left[ e^{ -r \Delta t} \tilde{C}_{t+1} | F_{t+1} \right] - u_t(S_t) \mathbb{E}[\Delta S_t | F_t]

gdzie rr to stopa procentowa, Δt\Delta t to krok czasowy, a ut(St)u_t(S_t) to optymalna strategia hedgingu w czasie t.

Równanie to można sprowadzić do bardziej zwięzłej postaci, wyrażając CtC_t w sposób rekurencyjny, wykorzystując transakcyjne prawdopodobieństwa przejścia pod miarą fizyczną PP. Jednakże dla wystarczająco dużych zmian ceny ΔSt\Delta S_t, może pojawić się sytuacja, w której cena opcji stanie się ujemna. Jest to właściwość dobrze znana w ramach metod minimalizacji ryzyka kwadratowego (Cerný i Kallsen, 2007; Föllmer i Schweizer, 1989). Ważne jest jednak zauważyć, że "sprawiedliwa" cena opcji CtC_t nie jest ceną, jaką sprzedawca opcji powinien pobierać. Rzeczywista cena opcji powinna uwzględniać premia za ryzyko.

Sprzedawca opcji jest narażony na ryzyko wyczerpania swojego salda bankowego BtB_t w przyszłości, dlatego musi być odpowiednio skompensowany za to ryzyko. W tym celu, do ceny opcji dodaje się premię ryzyka, która jest uzależniona od poziomu niechęci do ryzyka λ\lambda sprzedawcy, co prowadzi do bardziej realistycznego modelu wyceny opcji.

Optymalna cena sprzedaży (ask price) jest wyrażona wzorem:

C0ask=E0[C~0]+λertVar[C~tFt]C_0^{\text{ask}} = \mathbb{E}_0 [\tilde{C}_0] + \lambda e^{ -r t} \text{Var}[\tilde{C}_t | F_t]

gdzie C0askC_0^{\text{ask}} to cena sprzedaży opcji w czasie t=0t=0, a λ\lambda to parametr określający stopień niechęci do ryzyka. Wartością zmiennej C~0\tilde{C}_0 jest początkowa wartość opcji w czasie t=0t=0.

Problem minimalizacji "sprawiedliwej" ceny opcji można sprowadzić do problemu maksymalizacji jej odwrotności (wartość ask), co daje:

Vt(St)=CtV_t(S_t) = -C_t

gdzie Vt(St)V_t(S_t) jest funkcją wartości ask w czasie t. Następnie w ramach tego procesu optymalizacyjnego możemy uwzględnić wariancję Var[C~tFt]\text{Var}[\tilde{C}_t | F_t], aby lepiej odzwierciedlić rzeczywiste ryzyko związane z transakcjami opcji.

Jednakże zauważmy, że przy używaniu kwadratowej funkcji użyteczności, cena opcji może stać się ujemna przy dużych wahaniach cen, ponieważ kwadratowa funkcja użyteczności nie jest monotoniczna. Aby rozwiązać ten problem, często stosuje się funkcje użyteczności, które spełniają warunki Von Neumanna-Morgensterna. Popularnym przykładem takiej funkcji jest funkcja wykładnicza:

U(X)=exp(γX)U(X) = -\exp(-\gamma X)

gdzie γ\gamma jest parametrem określającym niechęć do ryzyka, który ma analogiczne znaczenie jak parametr λ\lambda w kwadratowej funkcji użyteczności. Dzięki tej funkcji można uzyskać ceny opcji, które nie są ujemne, nawet przy dużych wahaniach cen aktywów.

Korzystając z tej funkcji użyteczności, można znaleźć zależność między parametrami λ\lambda i γ\gamma, co pozwala na bardziej dokładne modelowanie wyceny opcji z uwzględnieniem różnych preferencji ryzyka inwestora. Przekształcenie to jest szczególnie ważne, gdy rozważamy zastosowanie takich technik w kontekście zaawansowanych modeli wyceny opcji.

Jak Metoda Maksymalnej Entropii z Warunkami Causality Zmienia Podejście do Uczenia Wzmocnionego

W porównaniu z klasycznym problemem MaxEnt w jednej fazie, w którym ograniczenia odnoszą się do oczekiwań cech dla pojedynczych kroków, w przypadku problemów wieloetapowych ograniczenia te obejmują całe ścieżki. Praca nad tym zagadnieniem, w kontekście metody Max-Causal Entropy (MCE), pozwala na modelowanie decyzji, które uwzględniają ciągłość oraz zależności przyczynowe pomiędzy akcjami a przyszłymi stanami. Nie jest to jednak bezpośrednio wymuszone w formułach, jak pokazano w równaniu (11.21), gdzie zasady causality nie są explicite uwzględnione. W rzeczywistości polityka warunkowana przyczynowo w procesie decyzyjnym MDP rozkłada się na nieskończoną sumę, zależną od parametrów πt(atst)\pi_t(a_t | s_t), które służą jako zmienne decyzyjne. Taki mechanizm wymusza przyczynowość, jako element wynikający z dekompozycji MDP, zapewniając, że polityka będzie respektować struktury zależności przyczynowych.

Kiedy zastosujemy tę metodę do problemu uczenia wzmocnionego (RL) lub uczenia wzmocnionego odwrotnego (IRL), otrzymujemy możliwość przeformułowania problemu w formę dualną, jak pokazano w równaniu (11.21). Problem ten jest optymalizowany względem funkcji celu, która jest różnicą oczekiwań nagród i entropii, z dodatkowym ograniczeniem na poziom entropii, który pozostaje stały w trakcie procesu optymalizacji. Co istotne, dualna forma MCE jest konwektywna i umożliwia uproszczenie problemu, zmniejszając liczbę ograniczeń do pojedynczego na entropię, co jest kluczowe dla efektywności obliczeniowej. Zatem w porównaniu do poprzednich, bardziej skomplikowanych metod, w których entropia była rozwiązywana przy pomocy wielu złożonych ograniczeń, MCE w formie dualnej pozwala na prostsze i bardziej przejrzyste rozwiązanie.

Kiedy zastosujemy tę metodę do bezpośredniego uczenia wzmocnionego, zauważymy, że wymaga ona założenia o oczekiwanych nagrodach, które w tym przypadku mogą być traktowane jako cechy, F(st,at)=r(st,at)F(s_t, a_t) = r(s_t, a_t). Takie podejście umożliwia usunięcie drugiego składnika w funkcji celu (11.21), który nie ma wpływu na optymalizację polityki, a jedynie zależy od funkcji nagród. Ta prostota znajduje zastosowanie w problemach RL, w których nagrody są obserwowane bezpośrednio. Rozszerzenie metody MCE przez użycie rozbieżności KL (Kullback-Leibler) względem polityki referencyjnej π0(as)\pi_0(a|s) umożliwia regulację entropii, zapewniając bardziej elastyczne dostosowanie do konkretnych warunków. Takie podejście sprawia, że metody Max-Causal Entropy są bardziej zaawansowane w porównaniu do klasycznych metod RL, ponieważ pozwalają na wprowadzenie dodatkowej kontroli nad bliskością polityki do referencyjnego rozkładu akcji.

W kontekście G-learningu i Soft Q-learningu, możemy zastosować metody z MCE do bardziej złożonych problemów, w których celem jest optymalizacja polityki w sposób, który uwzględnia zarówno nagrody, jak i koszty związane z informacją o rozkładzie polityki referencyjnej. Tego typu podejście zmienia klasyczną funkcję wartości Bellmana, wprowadzając modyfikację w postaci funkcji swobodnej energii, Fπ(st)F_\pi (s_t), którą należy optymalizować względem nowych równań, takich jak Gπ(st,at)G_\pi (s_t, a_t) i Fπ(st)F_\pi (s_t). Wspomniana swobodna energia pełni rolę funkcji wartości w tym kontekście, a parametr β kontroluje równowagę między optymalizowaniem nagrody a przywiązaniem do referencyjnej polityki, przy czym wyższe wartości β powodują silniejsze przypisanie do oryginalnej polityki. Dzięki temu możliwe jest uzyskanie polityk, które nie tylko maksymalizują nagrodę, ale i zachowują spójność z wcześniej ustaloną referencyjną polityką.

Optymalizowanie polityki przy pomocy takich metod jak G-learning (które są zasadniczo równoważne metodzie MCE) prowadzi do wyznaczenia polityki w formie, która jest wyrażona w standardowej postaci rozkładu Boltzmanna, ale z inną funkcją energii F^(st,at)\hat{F}(s_t, a_t), która w tym przypadku jest funkcją GG. To pokazuje, jak zaawansowane metody optymalizacji mogą być stosowane w zadaniach decyzyjnych, w których zależności między akcjami a przyszłymi stanami mają kluczowe znaczenie dla poprawności podejmowanych decyzji.

MCE i G-learning oferują także znaczne zalety w zadaniach odwrotnego uczenia wzmocnionego (IRL), gdzie celem jest odkrycie ukrytych nagród, które nie są bezpośrednio dostępne. W takim przypadku klasyczne algorytmy IRL mogą zostać wzbogacone o technologię Max-Causal Entropy, co umożliwia naukę polityk w bardziej naturalny sposób, uwzględniając przyczynowość między działaniami a stanami, co jest kluczowe dla pełniejszego zrozumienia procesów decyzyjnych w środowiskach o złożonych interakcjach czasowych.

Jak działa funkcja softmax, algorytm wstecznej propagacji i optymalizacja za pomocą SGD w sieciach neuronowych?

W sieciach neuronowych funkcja softmax jest wykorzystywana do reprezentowania rozkładu prawdopodobieństwa, który odnosi się do K możliwych stanów. Używając wzoru

Gk^=P(G=kX)=σs(WX+b)=exp((WX+b)k)j=1Kexp((WX+b)j),\hat{G_k} = P(G = k | X) = \sigma_s(WX + b) = \frac{\exp((WX + b)_k)}{\sum_{j=1}^K \exp((WX + b)_j)},

gdzie σs\sigma_s to funkcja softmax, a WW oraz bb to odpowiednio wagi i biasy, otrzymujemy prawdopodobieństwo, że dany przykład należy do klasy kk. Funkcja ta jest szeroko stosowana w problemach klasyfikacji wieloklasowej, w których wymagane jest przypisanie etykiety do jednej z kilku możliwych klas.

Aby obliczyć pochodne tej funkcji względem wag i biasów, stosujemy regułę łańcuchową. Dla funkcji softmax pochodna dla i=ji = j jest zapisana jako:

σixi=σi(1σi),\frac{\partial \sigma_i}{\partial x_i} = \sigma_i(1 - \sigma_i),

a dla iji \neq j jako:

σixj=σiσj.\frac{\partial \sigma_i}{\partial x_j} = -\sigma_i \sigma_j.

Te wyrażenia są kluczowe dla dalszych obliczeń w procesie wstecznej propagacji błędów, który pozwala na aktualizację wag w sieci neuronowej.

W procesie uczenia maszynowego, gdzie minimalizujemy funkcję straty względem wag i biasów, stosuje się metodę optymalizacji znaną jako Stochastic Gradient Descent (SGD), czyli stochastyczny spadek gradientu. W tej metodzie dla każdej próbki treningowej obliczamy gradient funkcji straty względem wag i biasów, a następnie aktualizujemy je zgodnie z kierunkiem przeciwnym do gradientu. Standardowy algorytm wygląda następująco:

(W,b)k+1=(W,b)ktkgk,(W, b)_{k+1} = (W, b)_k - t_k g_k,

gdzie tkt_k to współczynnik uczenia (tzw. learning rate), a gkg_k to przybliżony gradient funkcji straty w iteracji kk.

Współczesne metody uczenia w sieciach neuronowych często korzystają z tzw. mini-batchów, czyli małych podzbiorów danych, które są używane do obliczenia gradientu w danej iteracji. Dzięki temu proces obliczeniowy jest bardziej efektywny, a metoda staje się mniej podatna na szum w obliczeniach. Z kolei stosowanie różnych harmonogramów redukcji współczynnika uczenia może poprawić zbieżność algorytmu w bardziej złożonych zadaniach.

Pochodne funkcji straty oblicza się za pomocą metody wstecznej propagacji (backpropagation). Proces ten polega na obliczeniu gradientów dla wszystkich warstw sieci, zaczynając od wyjściowej warstwy, a następnie propagując je wstecz przez warstwy ukryte. Dla każdej warstwy stosuje się wzór:

δ(l)=(σ(z(l)))W(l+1)Tδ(l+1),\delta^{(l)} = \left( \sigma'(z^{(l)}) \right) W^{(l+1)T} \delta^{(l+1)},

gdzie z(l)z^{(l)} to wejście do warstwy ll, a δ(l)\delta^{(l)} to błąd propagowany wstecz w tej warstwie. Gradienty dla wag są obliczane jako:

LW(l)=δ(l)z(l1),\frac{\partial L}{\partial W^{(l)}} = \delta^{(l)} \otimes z^{(l-1)},

gdzie \otimes oznacza iloczyn zewnętrzny. Na podstawie tych gradientów wagi i biasy są aktualizowane zgodnie z algorytmem SGD.

Ważnym aspektem procesu uczenia w sieciach neuronowych jest również użycie technik regularizacji, takich jak L1 czy L2, które zapobiegają przeuczeniu modelu, czyli sytuacji, w której model staje się zbyt skomplikowany i dopasowuje się zbytnio do danych treningowych. Stosowanie odpowiednich metod regularizacji jest kluczowe, zwłaszcza w przypadku głębokich sieci neuronowych, które mają tendencję do nadmiernej kompleksowości.

Jednym z wyzwań, jakie napotykają tradycyjne metody optymalizacji, jest wolna zbieżność w przypadku bardzo dużych sieci. W celu przyspieszenia procesu uczenia wprowadza się różne techniki, takie jak użycie momentu (Momentum). W tej metodzie aktualizacja wag uwzględnia zarówno bieżący gradient, jak i poprzednie kroki aktualizacji, co pozwala na szybszą konwergencję:

vk+1=μvktkgk,v_{k+1} = \mu v_k - t_k g_k,
(W,b)k+1=(W,b)k+vk+1,(W, b)_{k+1} = (W, b)_k + v_{k+1},

gdzie vkv_k to wektor prędkości, a μ\mu to współczynnik momentu, który kontroluje wpływ poprzednich kroków na aktualizację.

Techniki te, chociaż proste, znacząco poprawiają efektywność procesów uczenia w głębokich sieciach neuronowych. Praktyczne doświadczenie z różnymi strategiami optymalizacji, regulacją współczynnika uczenia oraz eksperymenty z różnymi wartościami momentu pozwalają znaleźć najbardziej efektywne metody uczenia dla konkretnego zadania.

Jak działają metody dynamicznego programowania w uczeniu ze wzmocnieniem?

Algorytmy w uczeniu ze wzmocnieniem (RL) mają na celu znalezienie optymalnej polityki działania, która maksymalizuje oczekiwaną sumę nagród w danym środowisku. Istnieje kilka różnych podejść do realizacji tej strategii, z których jednym z najważniejszych jest podejście oparte na funkcji wartości, zwane wartością funkcji RL. Wartość funkcji w tym przypadku odnosi się do oceny jakości polityki i stanów, w których znajduje się agent. Chociaż różne metody RL różnią się w zależności od tego, czy polegają na wartościach funkcji, czy bezpośrednio na politykach, to wartość funkcji wciąż pozostaje kluczowym elementem wielu klasycznych algorytmów.

Większość algorytmów opartych na wartościach funkcji w RL zakłada, że przestrzeń stanów i akcji jest dyskretna. W takich przypadkach przestrzeń stanów (S) jest zazwyczaj na tyle mała, by obliczenia mogły zostać wykonane w sposób efektywny. Jeśli jednak przestrzeń stanów jest ciągła, proces może stać się znacznie trudniejszy. Dyskretyzowanie przestrzeni stanów za pomocą metod takich jak klasyczne podejścia dynamicznego programowania (DP) może prowadzić do wykładniczego wzrostu liczby możliwych stanów, co sprawia, że takie rozwiązanie staje się niepraktyczne, gdy liczba wymiarów przestrzeni stanów przekracza pewną granicę. Dla problemów o większej liczbie wymiarów konieczne jest znalezienie bardziej zaawansowanych metod przybliżania.

W metodach DP, takich jak obliczanie funkcji wartości stanu, głównym narzędziem jest równanie Bellmana. W przypadku problemów stacjonarnych (czyli takich, w których dynamika nie zmienia się w czasie) równanie Bellmana opisuje, jak wartość danego stanu zależy od nagród oraz wartości stanu w przyszłości, z uwzględnieniem współczynnika dyskontowania (γ). Problem znalezienia funkcji wartości stanu dla określonej polityki polega na rozwiązaniu układu równań liniowych, który w miarę rosnącej liczby stanów staje się coraz bardziej kosztowny obliczeniowo.

Zamiast rozwiązywać układ równań w jednym kroku (co może wiązać się z kosztowną inwersją macierzy), można zastosować podejście rekurencyjne, tzw. iterację Bellmana. Ta metoda polega na iteracyjnym zastosowaniu operatora Bellmana, który aktualizuje wartości funkcji w oparciu o poprzednią iterację, aż do momentu osiągnięcia zbieżności. Iteracja Bellmana jest wykorzystywana do oceny funkcji wartości polityki. Algorytm powtarza proces oceny polityki, stosując funkcję wartości z poprzedniego kroku, aż uzyskana funkcja wartości nie zmieni się w sposób znaczący.

Pomimo że ocena polityki może przebiegać stosunkowo szybko, ostatecznym celem zarówno w dynamicznym programowaniu, jak i w metodach RL, jest znalezienie optymalnej polityki. Proces ten wiąże się z poszukiwanie polityki, która maksymalizuje oczekiwaną sumę nagród w długim okresie. W ramach tego procesu stosuje się klasyczną metodę iteracji polityk, której celem jest nie tylko ocena, ale również poprawa polityki. Algorytm iteracji polityki składa się z dwóch kluczowych etapów: oceny aktualnej polityki i jej poprawy. Pierwszy etap, ocena polityki, realizowany jest za pomocą wcześniej opisanej iteracji Bellmana. Drugi etap, poprawa polityki, polega na znalezieniu nowej polityki, która lepiej ocenia stan i wybiera lepsze akcje.

Iteracja polityki może być stosunkowo łatwa do przeprowadzenia, gdy przestrzeń stanów jest mała i zdefiniowana w sposób dyskretny. Jednakże dla bardziej złożonych, ciągłych problemów, ten proces staje się trudniejszy i wymaga zastosowania bardziej wyrafinowanych metod optymalizacji. Niemniej jednak iteracja polityki jest fundamentem dla wielu algorytmów poszukiwania optymalnej polityki, a jej efektywność opiera się na szybkości i prostocie obliczeń, które umożliwiają stopniowe polepszanie decyzji agenta.

Metoda iteracji polityki opiera się na teorii poprawy polityki, która mówi, że jeśli w danym stanie agent wybierze najlepszą możliwą akcję (zgodnie z kryterium maksymalizacji funkcji wartości akcji), to otrzyma większą wartość funkcji stanu. Kluczowym elementem tej procedury jest tzw. polityka zachłanna (greedy policy), która w każdym stanie wybiera akcję prowadzącą do największej możliwej wartości.

W ramach algorytmu iteracji polityki początkowa polityka jest zazwyczaj ustawiana losowo. Następnie, w cyklu powtarzanych obliczeń, polityka jest oceniana, a potem ulepszana. Celem jest doprowadzenie do polityki optymalnej, która prowadzi do maksymalizacji sumy nagród w danym środowisku. Ważne jest, aby proces iteracji polityki był przeprowadzany w sposób kontrolowany i stabilny, co zapewnia zbieżność do optymalnego rozwiązania.

W procesie iteracji polityki kluczową rolę odgrywa ocena wartości stanu i akcji, która pozwala na precyzyjne określenie, jakie decyzje są najlepsze w danym kontekście. Jednocześnie iteracja ta może być stosunkowo szybka i efektywna, ponieważ każda iteracja jest oparta na prostych operacjach liniowych. Jednak dla bardziej złożonych przestrzeni stanów konieczne jest poszukiwanie bardziej zaawansowanych metod, które umożliwią skuteczne przybliżenie optymalnej polityki.

Warto zauważyć, że zarówno w dynamicznym programowaniu, jak i w metodach RL, zakłada się doskonałą znajomość modelu środowiska. W rzeczywistości jednak środowisko może być nieznane lub zmienne, co stawia dodatkowe wyzwania przed algorytmami RL. Jednak nawet w takich przypadkach, iteracyjne metody oceny polityki i poprawy polityki pozostają jednym z najważniejszych narzędzi w procesie poszukiwania optymalnych strategii działania.

Jak Metody Uczenia ze Wzmocnieniem Wpływają na Optymalizację Polityki Handlowej na Rynkach Finansowych?

Metody uczenia ze wzmocnieniem (RL) stały się istotnym narzędziem w kontekście automatycznego podejmowania decyzji na rynkach finansowych, zwłaszcza w problemach takich jak realizacja transakcji, market making czy optymalizacja strategii handlowych. W tym kontekście, wykorzystanie algorytmów RL, takich jak SARSA (State-Action-Reward-State-Action) i Q-learning, staje się coraz bardziej popularne, ponieważ pozwala na adaptacyjne podejmowanie decyzji w zmieniającym się środowisku rynkowym.

Zagadnienie to rozważymy na przykładzie problemu realizacji transakcji, w którym celem jest optymalizacja polityki handlowej, by uzyskać jak najlepszy wynik finansowy, przy jednoczesnym uwzględnieniu ograniczeń związanych z poziomem zapasów i zmiennością ceny akcji. W szczególności, przy założeniu, że inwestor stara się zarobić na różnicy między ceną kupna a ceną sprzedaży akcji, a jednocześnie utrzymać swoje zapasy w przedziale -1 do 1, wprowadzenie algorytmów RL stwarza nowe możliwości w zakresie przewidywania, kiedy i w jaki sposób składać zlecenia kupna, sprzedaży lub poczekać.

Ważnym aspektem jest tu modelowanie prawdopodobieństwa wykonania zlecenia. W tradycyjnych podejściu wykorzystuje się dane o głębokości książki zleceń, które odzwierciedlają płynność rynku, oraz stosunek popytu do podaży na rynku (ang. liquidity imbalance). W oparciu o te dane agent RL podejmuje decyzje o tym, kiedy złożyć ofertę kupna (b), sprzedaży (s) lub poczekać (h). Model RL zakłada, że agent nie zna dokładnych informacji o stanie rynku, ale posługując się danymi z książki zleceń, próbuje przewidzieć prawdopodobieństwo realizacji zlecenia. W tym przypadku, proces decyzyjny staje się dylematem dotyczącym tego, czy składać zlecenie sprzedaży, czy też poczekać na lepsze warunki rynkowe, by zwiększyć swoją marżę.

Analiza wyników tych algorytmów, jak pokazano w przykładzie z SARSA i Q-learning, ujawnia pewne różnice w optymalnych politykach, jednak w miarę wzrostu liczby iteracji, obie metody zaczynają zbiegać się do tego samego wyniku. Zasadniczo, różnice te są subtelne i zależą od zastosowanego podejścia do eksploracji, na przykład w ramach polityki ε-greedy, która jest powszechnie wykorzystywana w takich przypadkach.

Pomimo obiecujących wyników w kontekście ograniczonych, dyskretnych przestrzeni stanów i działań, metody RL napotykają na istotne ograniczenia w bardziej złożonych, rzeczywistych zastosowaniach. W takich przypadkach, gdy przestrzeń stanów i działań jest zbyt rozległa, jak w sytuacjach rynków finansowych, w których możemy mieć do czynienia z wieloma różnymi czynnikami wpływającymi na cenę akcji, konieczne staje się stosowanie technik przybliżania funkcji. Jednym z rozwiązań jest użycie przybliżenia liniowego, które pozwala reprezentować funkcje wartości w przestrzeni stanów za pomocą mniejszej liczby parametrów.

W tym przypadku, każdemu stanowi przypisuje się wagę, a wartość funkcji stanu wyraża się jako sumę iloczynów wag i odpowiednich funkcji bazowych. Takie podejście zmniejsza wymagania pamięciowe oraz czas obliczeń, umożliwiając jednocześnie radzenie sobie z problemami, w których mamy do czynienia z ciągłymi przestrzeniami stanów lub działań.

Jednak sama reprezentacja stanów i funkcji wartości to tylko jeden z aspektów rozwiązania. Istotnym wyzwaniem pozostaje także określenie odpowiednich funkcji nagrody, które motywują agenta do podejmowania właściwych decyzji w danym kontekście rynkowym. W przypadku market makingu, funkcja nagrody może być związana z sumą zysków i strat, gdzie każda transakcja wiąże się z określonym kosztem, a celem jest uzyskanie jak największego zysku na różnicy między cenami.

Również w kontekście algorytmów RL, szczególnie w Q-learningu, istotne jest zrozumienie, że chociaż oba podejścia (SARSA i Q-learning) prowadzą do zbliżonych wyników w kontekście zarządzania pozycjami i realizacji transakcji, to różnice w metodach eksploracji mogą wpływać na szybkość konwergencji oraz efektywność działania w bardziej złożonych rynkach. Stąd, oprócz samego algorytmu, warto również zwrócić uwagę na strategie eksploracji oraz optymalizację parametrów w procesie uczenia.

Z kolei w przypadku dużych przestrzeni stanów i działań, gdzie klasyczne podejścia stają się niewystarczające, metody przybliżenia funkcji w przestrzeni ciągłej, takie jak sieci neuronowe, stają się coraz bardziej popularne. Dzięki nim, możliwe jest modelowanie złożonych zależności między stanami a nagrodami, co w efekcie pozwala na bardziej precyzyjne podejmowanie decyzji w zmieniających się warunkach rynkowych.