Az optimális fedezeti stratégia megtalálása diszkrét időben analitikusan levezethető az adott időpillanatban a portfólió változásának feltételes várható értékéből és kovarianciájából. A fedezeti pozíció nagysága a következőképpen határozható meg: az adott időpontban a fedezeti pozíció aránya az árfolyamváltozás és a fedezeti portfólió értékének kovarianciájának aránya a szórásnégyzethez képest, mely az adott időpont feltételes információs halmazára vonatkozik. Ez a formula egyaránt alkalmazható diszkrét és folytonos állapottér esetén, azonban a számítás módszere eltérő: diszkrét állapottéren ez egyszerű, véges összegzés a Markov döntési folyamat átmeneti valószínűségei szerint, míg folytonos állapottér esetén Monte Carlo módszerekkel vagy bázisfüggvények kiterjesztéseivel lehet számolni.

Az opció "fair" ára az adott időpontban a fedezeti portfólió várható értéke, amely egy visszafelé számított feltételes várható értékből adódik. Ezt az árat nem szabad összetéveszteni azzal az árral, amelyen az opciót a piacon értékesítik, mivel az eladó kockázatot vállal: fennáll annak a veszélye, hogy a fedezeti portfólió, illetve a kapcsolódó banki számla értéke a jövőben negatívba fordulhat. Ezért az opció tényleges ára tartalmaz egy kockázati prémiumot, amely az eladó kockázatvállalási hajlandóságától függ.

Érdekesség, hogy a "fair" árak a kvadratikus kockázatminimalizálási eljárások miatt negatívak is lehetnek, ami a kvadratikus hasznosságfüggvény nem-monotonitásának következménye. Ez a probléma orvosolható nem kvadratikus, például exponenciális hasznosságfüggvény alkalmazásával, mely megfelel a Von Neumann–Morgenstern racionális befektetői feltételeknek, és garantálja a nem-negatív árakat tetszőleges kockázatvállalási szint mellett. Az exponenciális hasznosságfüggvény mellett a kvadratikus módszerekhez hasonló árazási és fedezési szabályok egy kis kockázatvállalás határértékében visszavezethetők az új modellre.

A diszkrét időből a folytonos idő felé haladva, a Black–Scholes–Merton modell limitje egy geometriai Brown-mozgás, melynek dinamikáját a kockázatmentes kamatláb, drift és volatilitás paraméterei írják le. Ebben a határértékben a diszkrét fedezeti pozíciók differenciálhányadosokká alakulnak, és a fedezeti stratégia a derivált árfolyamváltozás szerinti parciális deriváltak mentén írható le. A diszkrét és folytonos időmodellek közti átmenet biztosítja, hogy a diszkrét időszakokra tervezett kockázatkezelési módszerek megfelelnek a folyamatos piacok ideális matematikai modelljének.

Az opciók árának rekurzív számítását és a fedezeti stratégia meghatározását a feltételes várható értékek tornya és a kovariancia-mátrix használata teszi lehetővé. Az átmeneti valószínűségek és a diszkrét árfolyamváltozások megfelelő módon való kezelése kritikus ahhoz, hogy a modell egyszerre legyen elméletileg megalapozott és gyakorlati szempontból alkalmazható. Az opcionális kockázati prémium bevezetése segít a tényleges piaci árak és a matematikai várható értékek közötti eltérések kezelésében, továbbá a kockázatvállalás mérséklésére alkalmas eszközt nyújt az opciók árképzésében.

Fontos megérteni, hogy a "fair" ár, amelyet a matematikai elméletből kapunk, nem feltétlenül egyezik meg a piaci árral, hiszen a piaci szereplők kockázati preferenciái, tőke korlátai és likviditási szempontjai befolyásolják az árazást. Az exponenciális hasznosság használata modellezési szempontból előnyös, mert a kockázatot egy reálisabb, nem szimmetrikus módon veszi figyelembe, és elősegíti a reális árképzés kialakítását.

Továbbá, a fedezeti stratégia folyamatos adaptációja szükséges a piaci körülmények változásával, és a diszkrét időszakok közötti ugrások kezelése nélkülözhetetlen az árfolyamok helyes követéséhez. A Monte Carlo szimulációs módszerek alkalmazása, valamint a bázisfüggvények kiterjesztései lehetővé teszik a komplex állapottér modellezését és a reális árfolyam-szcenáriók előállítását, ami különösen fontos az összetettebb pénzügyi derivatívák árazásában.

Az elemzésből következik, hogy a matematikai modellezés és a gyakorlati kockázatkezelés szoros összefüggésben áll egymással, és a megfelelő árképzés és fedezési stratégia kialakítása megköveteli a valószínűségszámítás, a statisztika, valamint a pénzügyi matematika eszközeinek mélyreható alkalmazását. A piaci szereplőknek mindig figyelembe kell venniük, hogy az elméleti árak csak kiindulópontok, melyek kockázati prémiumokkal és egyéb piaci feltételekkel kiegészítve válnak kereskedési árakká.

Hogyan oldható meg a QLBS modell a megerősítéses tanulás segítségével?

A QLBS (Quantitative Asset-Liability Management) modell megoldásához, amikor a tranzíciós valószínűségek és jutalmazási függvények nem ismertek, a megerősítéses tanulás (reinforcement learning, RL) alkalmazható. Ebben a megközelítésben a folyamatos állapot- és akciótérrel dolgozó Q-tanulás (Q-learning) egyik változatát, a Fitted Q Iteration-t (FQI) használjuk. A FQI módszer alkalmazása batch-módban történik, amikor csak a múltban gyűjtött adatok állnak rendelkezésre. Az adatok egy NMC (Monte Carlo) szimulációval generált sorozatot alkotnak, amely a mögöttes részvény (St) értékét, a fedezeti pozíciót (at), az azonnali jutalmat (Rt) és a következő időpontban érvényes értéket (Xt+1) tartalmazza. Ezek az adatok származhatnak szimulált vagy valós részvényárfolyamokból, esetleg valós kereskedési adatokból, vagy mesterségesen generált adatokból, amelyek egy hipotetikus részvény- és készpénz-portfólió teljesítményét követik, amely egy adott opcióhoz tartozik.

A Fitted Q Iteration (FQI) módszer alapja a paraméteres modellek választása, amelyek az optimális akciót és az akciókhoz tartozó optimális értékfüggvényt reprezentálják. Itt lineáris architektúrákat alkalmazunk, ahol a keresett függvények lineárisak az állapotokat és akciókat leíró paraméterekben, amelyeket optimalizálunk az optimális akció és akció-érték függvények meghatározásához. A keresett optimális Q-függvény (Q%t(Xt, at)) egy kvadratikus függvény az akciók szerint, ezért alapfüggvények bővítésével ábrázolhatjuk, ahol a paraméterek időtől függő mátrixokként jelennek meg.

Az optimális Q-függvényt a következő módon fejezhetjük ki:

QQ%t (Xt, at) = \sum_{i=1}^3 \sum_{j=1}^M W_{ij}(t) \varphi_j(Xt)

Itt a Wij(t)W_{ij}(t) paraméterek az idő függvényében változnak, és a φj(Xt)\varphi_j(Xt) a keresett alapfüggvények. A lépésenkénti Bellman-optimalitási egyenlet alapján a Q-függvényt az adott adathalmaz segítségével regresszióval lehet meghatározni, ahol az új paraméterek iteratív módon kerülnek kiszámításra a teljes időtartamra.

A Q%t(Xt, at) függvények tehát a következő regressziós formátumban keresendők:

Rt(Xt,at,Xt+1)+γmaxaQRt (Xt, at, Xt+1) + \gamma \max_{a} Q%_{t+1} (Xt+1, at+1) = W_t \varphi(Xt, at) + \epsilon_t

Ez az egyenlet az optimális Q-függvényt adja vissza, ahol a legkisebb négyzetek módszerével minimalizálhatók a különbségek. A paramétereket így a következő összefüggés szerint határozhatjuk meg:

Wt=St1MtW_t = S_t^{ -1} M_t

Itt StS_t és MtM_t a kovariancia és a díjfüggvények matricái, amelyek a regresszióban szereplő adatok alapján kalkulálhatók. A Fitted Q Iteration módszer alkalmazása lehetővé teszi a modell paramétereinek megtalálását és optimalizálását a tanulási folyamat során.

A numerikus stabilitás érdekében, ha az akció optimális értéke nem közvetlenül a maximális Q-függvény alapján történik, hanem egy analitikai megoldás alkalmazásával a korábbi időpontokra vonatkozóan, elkerülhetjük a Q-learning tipikus problémáját, a túlbecslést, amelyet a Jensen-egyenlőtlenség és a konvex max(·) függvény okozhat. Ezáltal a QLBS modell megfelelően stabil eredményeket ad, és a klasszikus Q-learning hibák elkerülhetők.

A QLBS modell alkalmazása, amely a Fitted Q Iteration módszert használja, egy modellmentes és off-policy algoritmus. Ez lehetővé teszi a hagyományos Black-Scholes (BS) modell alternatíváját, amely explicit módon figyelembe veszi a fedezési kockázatokat és azok árazásának különbségét. Az RL megoldás különbözik a hagyományos dinamikai programozásos (DP) megközelítésektől, mivel itt nagyobb dimenziójú adatot és több paramétert kell figyelembe venni, azonban a célzott optimalizálás révén a kockázatok figyelembevétele egy pontosabb, valósághűbb árazást eredményez.

A QLBS modell alkalmazásának másik előnye, hogy a Black-Scholes megoldás limitált esetekben visszanyerhető, például, ha a kockázat-előny paraméter (λ\lambda) és az időállapot (Δt\Delta t) értékei megfelelően kicsik. Ezenkívül a kockázat-előny paraméter növelése, illetve a hosszú távú időintervallumok figyelembevételével az RL megoldás új és izgalmas lehetőségeket kínál a pénzügyi modellezésben, ahol a hagyományos módszerek már nem adnak megfelelő válaszokat.

Hogyan működik a Bayesi regresszió lineáris modellben?

A lineáris regresszió modelljét, amely affine formában van, az alábbi egyenlet jellemzi:

y=f(x)=θ0+θ1xy = f(x) = \theta_0 + \theta_1 x,
ahol θ0,θ1N(0,1)\theta_0, \theta_1 \sim N(0, 1) és xRx \in \mathbb{R}. Az egyszerűség kedvéért vegyük, hogy az x:=[x1,,xn]x := [x_1, \dots, x_n] bemeneti értékek ismertek, míg a paraméterek θ:=[θ0,θ1]\theta := [\theta_0, \theta_1] ismeretlenek. Ezt a felállást "zajmentes" helyzetnek nevezzük, mivel azt feltételezzük, hogy az yy-t kizárólag a f(x)f(x) függvény határozza meg, zaj nélkül. A gráfmodell, amely vizualizálja ezt a helyzetet, azt mutatja, hogy az ii-edik modellkimenet csak az xix_i bemenettől függ. Az elmélet a zaj nélküli környezetben az alábbi módon számolja ki a várható értéket:

Eθ[f(xi)xi]=Eθ[θ0]+Eθ[θ1]xi=0,i.E_{\theta}[f(x_i)|x_i] = E_{\theta}[\theta_0] + E_{\theta}[\theta_1] x_i = 0, \quad \forall i.

A várható érték az θ\theta prior eloszlásának függvényében történik, amelyet a következő integrál fejez ki:

Eθ[]=()p(θ)dθ.\int E_{\theta}[ \cdot ] = (\cdot) p(\theta) d\theta.

A függvényértékek közötti kovariancia két pont között xix_i és xjx_j az alábbi képlettel számítható:

Eθ[f(xi)f(xj)xi,xj]=Eθ[θ02]+Eθ[θ0θ1](xi+xj)+Eθ[θ12]xixj.E_{\theta}[f(x_i) f(x_j)|x_i, x_j] = E_{\theta}[\theta_0^2] + E_{\theta}[\theta_0 \theta_1] (x_i + x_j) + E_{\theta}[\theta_1^2] x_i x_j.

Mivel θ0\theta_0 és θ1\theta_1 függetlenek, a végső kifejezés egyszerűsödik:

Eθ[f(xi)f(xj)xi,xj]=1+xixj.E_{\theta}[f(x_i) f(x_j)|x_i, x_j] = 1 + x_i x_j.

Ezáltal a függvényértékek közötti kovariancia-mátrix, KijK_{ij}, amelynek eleme a fenti kifejezés, egy olyan közönséges eloszlást ad, amely egy joint Gaussi eloszlást eredményez a függvényértékekre, [f(x1),,f(xn)][f(x_1), \dots, f(x_n)], a következő kovarianciával:

Kij=Eθ[f(xi)f(xj)xi,xj]=1+xixj.K_{ij} = E_{\theta}[f(x_i) f(x_j)|x_i, x_j] = 1 + x_i x_j.

Ez a probabilisztikus modell a „Gaussian Process Regression” (GPR), azaz a Gauss-folyamat-regresszió egyik legegyszerűbb példája, melyet később bővebben is tárgyalunk.

Zajos adatok

Az előző példát zajmentes környezetben vizsgáltuk, ahol a függvényértékeket teljesen ismerjük. A valóságban azonban nem magukat a függvényértékeket, hanem olyan célértékeket y=[y1,,yn]y = [y_1, \dots, y_n] figyelhetünk meg, amelyek az f(x)f(x)-tól és egy 00-középpontú Gauss-eloszlású zajtól függnek. Ekkor a zaj az alábbi képlettel modellezhető:

yi=f(xi)+ϵi,ϵiN(0,σn2).y_i = f(x_i) + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma_n^2).

Az így megfigyelt, független és azonos eloszlású adatok D:=(x,y)D := (x, y) alakot öltnek. A zaj jelenlétében a maximális valószínűségi függvény az alábbi módon írható fel:

i=1np(yixi,θ)=12πσn2exp((yiθ0θ1xi)22σn2).\prod_{i=1}^{n} p(y_i|x_i, \theta) = \frac{1}{\sqrt{2\pi \sigma_n^2}} \exp\left(-\frac{(y_i - \theta_0 - \theta_1 x_i)^2}{2 \sigma_n^2}\right).