A Black-Scholes PDE (parciális differenciálegyenlet) származtatása a fedezeti portfólió diszkrét időbeli elemzéséből történik, ahol az idő lépései végül végtelenné válnak (t → 0). A klasszikus BSM (Black-Scholes-Merton) modell, bár rendkívül elterjedt és használt az opciók árazásában, nem veszi figyelembe a tényleges piaci környezet bonyolultságait, mint például az ügyletek költségeit és a gyakori portfólió újraallokációval járó kockázatokat. Az idő folyamatos modellben a tranzakciós költségek elhanyagolhatóak, ami azonban nem igaz a valós piacon, ahol az opciók fedezése napi szinten, vagy akár gyakrabban is szükséges. Az ilyen típusú gyakori rebalanszírozás költségei jelentős mértékben befolyásolhatják a portfólió teljesítményét, mivel az újraallokációk gyakori végrehajtása a tranzakciós költségek növekedéséhez vezethet.

A klasszikus Black-Scholes modell tehát a piaci környezet realitásait figyelmen kívül hagyva, szépített formában kezeli az opciók árazását. Az opciók tökéletes replikációja egy elméleti feltételezés, amely a diszkrét időben történő fedezéskor már nem érvényes, mivel a rebalanszírozás gyakorisága miatt a fedezeti portfólió és az opció valódi értéke közötti eltérés jelentkezhet, amit „fedezeti csúszásnak” nevezünk. A fedezeti csúszás mértéke az egyes újraallokációk közötti részvényármozgásoktól függ, így az opciók árának pontos meghatározása és az ezzel kapcsolatos kockázatok kezelése egy bonyolultabb folyamatot igényel, amely figyelembe veszi az invesztorok kockázatvállalási preferenciáit is.

A tökéletes replikáció elve tehát nem alkalmazható diszkrét időben, mivel az állandó újraallokációk miatt a tökéletes fedezeti pozíció már nem lehetséges. Az opcióval kapcsolatos kockázatot a vásárló vagy az eladó számára kompenzálni kell, mivel az ilyen helyzetekben a piacon jelen lévő kockázatok nem csupán elméletiek, hanem konkrét pénzügyi következményekkel járnak. A diszkrét időbeli modellek tehát az invesztorok számára a kockázatkezelés új dimenzióit nyitják meg, mivel a hagyományos Black-Scholes-modell nem veszi figyelembe a kockázatok ilyen fokú komplexitását.

A kockázatok kezelésére irányuló célok egy dinamikus opció replikálásával valósíthatók meg, ahol a fő cél nem csupán az opciók árazása, hanem a kockázat minimalizálása. A kockázat csökkentésére irányuló folyamat szekvenciális döntéshozatal, amely az opciós pozíciók folyamatos frissítésére épít, így az egész folyamat egy megerősítéses tanulás keretében is modellezhető. A megerősítéses tanulás (reinforcement learning) a diszkrét időbeli modellekbe beépítve lehetővé teszi az opciók árazásának és fedezésének optimalizálását anélkül, hogy explicit modellezni kellene a részvényárfolyamok dinamikáját. Az ilyen típusú tanulási algoritmusok, mint a Q-tanulás (Q-learning), nem igényelnek előzetes ismeretet a részvényárfolyamok eloszlásáról, és kizárólag az adatminták alapján képesek meghatározni az opciók árait és fedezeti arányait.

Ez az új megközelítés, amelyet QLBS modelként ismerünk, lehetővé teszi a pénzügyi modellek számára, hogy összhangban legyenek a valós piaci környezettel, miközben nem igényelnek túlzottan bonyolult matematikai modelleket. A QLBS modell tehát egy olyan diszkrét időbeli Black-Scholes-Merton kiterjesztés, amely figyelembe veszi a piacok nem tökéletes információit és kockázatait. Az ilyen típusú modellezés az opciók fedezésére és árazására vonatkozó stratégiák terén új lehetőségeket kínál, amelyek figyelembe veszik a valós idejű kockázatokat, mint a tranzakciós költségek, a portfólió rebalanszírozása és a dinamikusan változó piaci környezet.

Fontos megérteni, hogy bár a QLBS modell a Black-Scholes megközelítés folytatásaként és bővítéseként működik, lényeges különbség van abban, hogy míg a klasszikus modell a tökéletes piaci feltételezéseken alapul, addig a QLBS modell a valós piaci környezet kockázatait és sajátos jellemzőit is figyelembe veszi. Az opciós kereskedés tehát nem csupán matematikai modellek alkalmazásáról szól, hanem a piacon rejlő tényleges kockázatok megértéséről és kezeléséről is. Ezen túlmenően a QLBS modell lehetőséget ad arra, hogy az opciós kereskedés ne csupán egy statikus árazási problémát jelentsen, hanem egy folyamatosan optimalizált döntéshozatali folyamatot, amelyben az opciós eladók és vásárlók egyaránt alkalmazkodnak a valós idejű piaci feltételekhez.

Milyen módon lépheti túl az IRL a tanítót?

A Gauss-folyamat (GP) megközelítésében a jutalom eloszlását nulla középértékkel rendelkező GP-priorral modellezik: rGP(0,kθ(xi,xj))r \sim GP(0, k_\theta(x_i, x_j)). Itt kθk_\theta a kovariancia-függvényt jelöli, például kθ(xi,xj)=σk2eξ2(xixj)2k_\theta(x_i, x_j) = \sigma^2_k e^{ -\xi^2(x_i - x_j)^2}, ahol θ=(σk,ξ)\theta = (\sigma_k, \xi) a modell paramétereit tartalmazó vektor. A véges mintából származó GP prior a rN(0,KXX)r \sim N(0, K_{XX}) valószínűségi eloszlást indukál, ahol KXXK_{XX} a kovariancia-mátrix, és az elemei [KXX]ij=kθ(xi,xj)[K_{XX}]_{ij} = k_\theta(x_i, x_j). A jutalom megtanulása a kernel-függvény (kθk_\theta) paramétereinek, θ\theta, megtanulását jelenti.

A GP-regresszióból ismert, hogy a célja annak értékelése, hogy egy ismeretlen függvény értékeit hogyan lehet meghatározni anélkül, hogy egy adott paraméteres formára köteleznénk magunkat. Ehhez adottak az xx bemeneti értékek és az ezekhez tartozó f(x)f(x) függvényértékek. A cél az, hogy a posterior eloszlást ff^* meghatározzuk a tesztadatpontok xx^*-ra. Mivel a ff és ff^* közös eloszlása Gauss-eloszlású, így a posterior eloszlás is Gauss-formájú lesz:

fx,x,fN(Kx,xKx,x1f,Kx,xKx,xKx,x1Kx,x).f^*|x, x^*, f \sim N(K_{x^*, x} K_{x, x}^{ -1} f, K_{x^*, x^*} - K_{x^*, x} K_{x, x}^{ -1} K_{x, x^*}).

A GPIRL-ben, ellentétben a GP-regresszióval, a keresett függvény értékeit (azaz a jutalomfüggvényt) nem figyeljük meg. Az észlelésekhez való kapcsolódást a GPIRL a MaxEnt IRL (Levine et al. 2011) alkalmazásával valósítja meg. Legyen uu a valódi jutalom, míg rr annak zajos változata. Az uu és θ\theta posterior valószínűsége a következőképpen alakul:

P(u,θD,Xu)=P(Dr)P(ru,θ,Xu)P(u,θXu)dr.P(u, \theta | D, X_u) = \int P(D | r) P(r | u, \theta, X_u) P(u, \theta | X_u) dr.

Ebben a kifejezésben P(Dr)P(D | r) az észlelések valószínűsége rögzített jutalom esetén. A kifejezés kiértékelésére a GPIRL egy MaxEnt szabályozást alkalmaz, amely az exponenciális függőséget használja rr-ra. A rr-ra vonatkozó integrál kiszámítása diszkrétizálható, vagy alternatívaként a hegycsúcs közelítést alkalmazva becsülhető. A hegycsúcs közelítés határértékét Levine et al. (2011) alkalmazta, akik a nulla zajhatású esetet vizsgálták, így P(ru,θ,Xu)P(r | u, \theta, X_u) a Dirac-delta függvénnyé vált.

A legtöbb IRL és imitációs tanulás algoritmusában az a közös feltételezés, hogy a tanár által bemutatott pályák (viselkedés) optimálisak vagy közel optimálisak. Ez a feltételezés megkönnyíti a problémát, mivel ha az ügynök tudja, hogy a bemutatott viselkedés majdnem optimális, akkor nem kell a tanár szándékait követni, csupán utánoznia kell őt. Azonban a gyakorlatban sok esetben ez a feltételezés túlságosan szigorú vagy irreális lehet. Például a robotok emberi bemutatók általi tanítása során nem mindig könnyű mérni vagy ellenőrizni a demonstrátorok al-optimalitásának szintjét. Az imitációs tanulás és a szub-optimális demonstrációk kombinációja olyan tanulási politikákhoz vezethet, amelyek kevésbé kontrollálhatóak vagy érthetőek.

Egy másik lehetséges kifogás a hagyományos IRL megközelítés ellen, hogy ha csak optimális vagy majdnem optimális demonstrációk állnak rendelkezésre, akkor az ügynök nem képes a hibás (vagy rendkívül nem optimális) demonstrációk tanulmányozására. Az ilyen demonstrációk hasznosak lehetnek, mivel információt nyújtanak a tanár céljairól. Ha például a pénzügyi példát nézzük, a hagyományos IRL algoritmusokat csak a magas jutalmú pályákra lehetne betanítani, amelyek nem vezetnek csődbe, míg a pénzügyi döntési rendszerben hasznos lenne a csődbe jutott pályák használata is, hogy a tanulási ügynök elkerülje azokat.

A tanár teljesítményének meghaladásához az ügynöknek a különböző demonstrációkból kell tanulnia, amelyek nemcsak az optimális vagy majdnem optimális, hanem a rendkívül alacsony vagy teljesen kudarcba fulladt demonstrációkat is tartalmazzák. Ezen demonstrációk figyelembevétele lehetővé teszi a tanár szándékainak jobb megértését, nem csupán a viselkedés utánzása révén. A tanítónál való teljesítmény meghaladásának feladata az extrapoláció a döntési térben, amely azonban nehezen lehetséges, ha csak optimális demonstrációk állnak rendelkezésre.

Egy erőteljes kiterjesztést mutatunk be a MaxEnt IRL-hez, amely magában foglalja mind a sikeres, mind a sikertelen demonstrációkból való tanulást. Ennek alkalmazása pénzügyi példákban, például egy emberi kereskedő vagy befektető tanulmányozásakor jelentős előnyökkel járhat. Az emberi kereskedő szubjektív döntései és viselkedési torzulásai alapján a hagyományos IRL vagy IL megközelítések nem tudják optimálisan modellezni a kereskedő valódi szándékait. Az ügynök célja nem csupán az emberi kereskedési stratégia utánzása, hanem a szándékok jobb megértése és a politikák optimalizálása.

A tanár teljesítményének meghaladásához tehát fontos, hogy az ügynök képes legyen megtanulni nemcsak a sikeres demonstrációk, hanem a hibásak és al-optimalis viselkedésminták figyelembevételével is. Az ilyen megközelítés segíthet abban, hogy az ügynök olyan politikát alakítson ki, amely figyelembe veszi a tanár szándékait, és nem csupán az utánzásra koncentrál.

Hogyan befolyásolják a prior eloszlások a Bayes-i becsléseket?

A torzítás–variancia kompromisszum vagy dilemma abból a szükségszerűségből fakad, hogy minimalizálni kell az észlelő két hibaforrását: a varianciát és a torzítást, hogy ezzel csökkentsük az átlagos négyzetes hibát (MSE). Sokszor a torzítás minimalizálása és a variancia minimalizálása között kompromisszumot kell kötni annak érdekében, hogy elérjük a lehető legkisebb MSE-t. Ezt a fogalmat a gépi tanulásban, különösen a statisztikai tanulás elméletében, a 4. fejezetben újra áttekintjük.

A Bayes-i inferencia során a cél az, hogy egy statisztikai modellt alkossunk, amely figyelembe veszi a paraméterek előzetes ismereteit és a megfigyelt adatokat. Tekintettel arra, hogy az adatok gyakran véletlenszerűek, az alapvető kérdés az, hogyan használjuk fel az adatokat annak érdekében, hogy megértsük és frissítsük a paraméterekről alkotott meggyőződéseinket. Ehhez alkalmazzuk a Bayes-tételt, amely egy előzetes valószínűségi eloszlást (prior) és egy valószínűségi eloszlást a megfigyelt adatok alapján (likelihood) kombinál, hogy végül kiszámítsuk a hátsó valószínűségi eloszlást (posterior).

Legyen θ egy statisztikai modell paramétere, és legyen y = y1, y2, ..., yn n i.i.d. (független és azonos eloszlású) megfigyelése egy véletlen változóból. A modelltől való szubjektív elvárásainkat az előzetes valószínűségi eloszlásban p(θ) fejezzük ki. A Bayes-tétel segítségével a prior eloszlást posterior eloszlássá alakítjuk, figyelembe véve az adatokat, azaz:

p(θ | y) = p(y | θ)p(θ) / p(y). A posterior eloszlás értelmezi a paraméterek bizonytalanságát, miután az adatokat megfigyeltük. A valószínűségi modell befolyása a p(y | θ) függvényen keresztül jelentkezik, amely a valószínűségi adatokat θ függvényében modellezi.

A valószínűségi modell alkalmazása során, ha θ a Bernoulli-eloszlás paramétere, a priorként a θ = U(0,1) egyenletes eloszlást választjuk, amely a Laplace elméletét követi, miszerint ha nem tudjuk, mi a valószínűség, akkor feltételezzük, hogy minden lehetőség ugyanolyan valószínű. Az ilyen típusú prior eloszlást nevezzük informatív prior nélküli eloszlásnak. A célunk nem a prior túlzott használata, hanem az adatok által meghatározott likelihood függvény segítségével elérni a posterior eloszlást.

Az egyenletes prior használatának példáján keresztül elmondható, hogy a posterior függvényt Bayes-tétel segítségével a likelihood és a prior szorzataként kaphatjuk meg. Ha n = 5 kísérletet hajtunk végre, akkor a posterior eloszlás p(θ | x1:n) ∝ θ(1− θ)^4 lesz. Ez a függvény a Beta-eloszlás sűrűségfüggvényére hasonlít, amely a valószínűségi eloszlások között előnyben részesített forma a Bayes-i statisztikai modellezésben.

Egy másik fontos kérdés, hogy a prior eloszlás mennyire informatív. Ha például a valószínűség valószínűleg a 0 és 1 közötti tartományban van, akkor érdemesebb egy Beta(α, β) eloszlást alkalmazni, amely jobban tükrözi a megfigyelések közvetlen valószínűségi eloszlását. Például, ha a priort a Beta(2, 2) eloszlással választjuk, akkor az valószínűsíti, hogy a modellezett rendszer kiegyensúlyozott, vagyis a paraméter valószínűsége a 0,5 körüli középpont felé koncentrálódik. A Beta-eloszlás alkalmazása lehetővé teszi, hogy a prior eloszlás tükrözze a tapasztalatainkat és előzetes tudásunkat a paraméterek viselkedéséről.

Fontos megjegyezni, hogy a Bayes-i statisztika nem csak az adatok feldolgozásáról szól, hanem a modellek értékeléséről és folyamatos javításáról is. Az eloszlások frissítése az új adatokat követően lehetőséget biztosít arra, hogy a modellt finomhangoljuk, és elkerüljük a túlzottan torz priorok okozta hibákat. A Bayes-i statisztika ereje abban rejlik, hogy nemcsak a meglévő adatokat használja fel, hanem képes folyamatosan alkalmazkodni a változó információkhoz.

A Bayes-i modellépítés során alkalmazott eloszlások, mint a prior, likelihood és posterior, alapvető fontosságúak a modell kimenetele szempontjából. Míg a priorok tisztán szubjektív választások, amelyek a modellalkotó előzetes hiedelmeit tükrözik, a likelihood eloszlások az adatokat és a valóságot, a posterior pedig a frissített tudást és következtetéseket tükrözi. Az ilyen típusú statisztikai elemzések lehetővé teszik, hogy a gépi tanulás és a döntéshozatal során ne csupán a jelenlegi adatokra támaszkodjunk, hanem figyelembe vegyük az előzetes ismereteinket és az új információk hatásait is.