A π : {0, . . . , T − 1} × X → A egy determinisztikus politika, amely a t időpontot és az aktuális állapotot, Xt = xt, a következő cselekvésre, at ∈ A-ra térképezi át: at = π(t, xt). Ezt a problémát kezdjük el a maximális értékek keresésével az (10.17)-es egyenlet alapján, amelyet itt új állapotváltozóval, Xt-ként átfogalmazunk, és a politikára π utaló felső indexet alkalmazunk.

A következő egyenletben a kifejezés egy része, amely a t' = t + 1 és t' = T közötti összeget tartalmazza, kifejezhető a Vt+1 értékekkel a következő definíció alapján:

t=t+1Tλer(tt)E[Var[δt(Xt)Ft]]=γ(Vt+1+Et+1[δt+1]),\sum_{t' = t+1}^{T} - \lambda e^{ -r(t' - t)} E [V ar [\delta t'(Xt') | F t']] = \gamma (Vt+1 + E_{t+1} [\delta t+1]),

ahol γ az időbeli diszkont faktor, amelyet a Black-Scholes modell kockázatmentes kamatlábának r-vel kapcsolunk össze. Ennek behelyettesítése után, az egyenlet rendezésével és a portfólió folyamatának (10.5) egyenletével, megkapjuk a Bellman egyenletet a QLBS modell számára:

Vtπ(Xt)=Et[R(Xt,at,Xt+1)]+γVt+1π(Xt+1),V^{\pi}_t(X_t) = E_t [R(X_t, a_t, X_{t+1})] + \gamma V^{\pi}_{t+1}(X_{t+1}),

ahol az egy lépéses, időtől függő véletlenszerű jutalmat a következőképpen definiáljuk:

Rt(Xt,at,Xt+1)=γatΔSt(Xt,Xt+1)λVar[δtFt],R_t(X_t, a_t, X_{t+1}) = \gamma a_t \Delta S_t (X_t, X_{t+1}) - \lambda \text{Var}[\delta t | F_t],

amely az egyenletben szereplő kifejezés alapján kockázatérzékeny visszajutalmat ad. Az alapmodellben a várható jutalom lineáris a cselekvés tekintetében, amely az eredményeket kockázatmentes esetben maximalizálja. A kockázatot figyelembe vevő megerősítéses tanulás (reinforcement learning) azon a modellváltozaton alapul, amelyben a kockázatot hozzáadjuk egy klasszikus kockázatmentes MDP problémához. Az egy lépéses varianciát mint kockázati büntetést alkalmazva, a célunk a jövőbeli kockázatok minimalizálása.

Ezen megközelítés révén a kockázatot nem csupán egy kockázatmentes modellbe illesztjük be, hanem közvetlenül beépítjük a jutalmazási funkcióba, így egy kockázatérzékeny megerősítéses tanulási modellt alkotunk. Ennek eredményeképpen a portfólió optimalizálása figyelembe veszi a kockázatot is, miközben maximalizálja a várható hozamot, és biztosítja, hogy az algoritmusok képesek legyenek az optimalizált döntéseket hozni az állapotok és cselekvések függvényében.

A Q-funkció, vagyis az akció-érték függvény az alábbi módon van definiálva:

Qtπ(x,a)=Et[δt(Xt)Xt=x,at=a],Q^{\pi}_t(x, a) = E_t[-\delta t(X_t) | X_t = x, a_t = a],

amely figyelembe veszi a következő lépés kockázatát is, a modell teljes időtartama alatt.

Az optimális politika, π_t^*(X_t), azt az akciót maximálja, amely az állapotok figyelembevételével a legnagyobb várható hasznot hozza:

πt(Xt)=argmaxπVtπ(Xt)=argmaxatAQtπ(Xt,at).\pi^*_t(X_t) = \arg\max_{\pi} V^{\pi}_t(X_t) = \arg\max_{a_t \in A} Q^{\pi}_t(X_t, a_t).

Az optimális Q-funkció a Bellman optimálisság egyenletében van kifejezve:

Qt(x,a)=Et[R(Xt,at,Xt+1)]+γmaxat+1Qt+1(Xt+1,at+1).Q^*_t(x, a) = E_t [R(X_t, a_t, X_{t+1})] + \gamma \max_{a_{t+1}} Q^*_{t+1}(X_{t+1}, a_{t+1}).

Amikor az optimális politikát alkalmazzuk, ez biztosítja, hogy a várt hozam a legjobb döntéseken alapuljon, miközben minimalizálja a kockázatokat.

A diszkontált kockázati elemzés különbségei a klasszikus Black-Scholes megközelítéssel szemben abban rejlenek, hogy míg az utóbbi csak a hozam maximalizálására fókuszál, addig a kockázatérzékeny modell figyelembe veszi a jövőbeli kockázatokat is. Ha a kockázatérzékeny politika paramétere λ 0-ra csökken, a rendszer visszatér a Black-Scholes delta elméletéhez.

A legfontosabb megjegyzés, hogy a kockázatérzékeny tanulás lehetővé teszi az optimális hedging megtalálását, miközben nemcsak a hozamot, hanem a kockázatot is figyelembe veszi. A tőzsdei portfóliók esetében az ilyen típusú elemzések és optimalizálások kulcsfontosságúak, különösen a hatékony kockázatkezelés és a befektetési döntések szempontjából. Ezért az optimalizált hedging nemcsak a piaci viszonyok hatékony kezelésére alkalmas, hanem a kockázatkezelési stratégiák fokozatos fejlődésére is vezethet.

Hogyan alkalmazhatjuk az inverz megerősítő tanulást és a utánzási tanulást a pénzügyi piacokon?

Az inverz megerősítő tanulás (IRL) és az utánzási tanulás (Imitation Learning) két olyan algoritmus, amelyek külön-külön vagy együttesen is alkalmazhatóak. Különösen az együtt alkalmazott változatok érdekesek, mivel lehetővé teszik a valós emberi ügynökök modellezését a pénzügyi szektorban. A G-Learner és a GIRL algoritmusok kombinációja képes olyan robottanácsadó rendszerek létrehozására, amelyek az emberi befektetők legjobb döntéseit képesek utánozni, így segítve a klienseket, hogy a legjobb teljesítményű befektetőkkel azonos szintre kerüljenek.

Az algoritmusok alkalmazása nem korlátozódik csak a robo-advisingra, hanem más pénzügyi döntéseket is segíthet optimalizálni, mint például a befektetési portfóliók kialakítását vagy a kereskedési stratégiák finomhangolását. A market sentiment, vagyis a befektetői hangulat fontos szerepet játszik ezen stratégiákban, mivel a piacok és a tranzakciók jelentős mértékben befolyásolják a részvények és egyéb értékpapírok árait. Az egyik legelterjedtebb megközelítés, hogy a hírek hangulatát, például a Bloomberg vagy a Thomson-Reuters hírelemzéseit, proxy-ként alkalmazzák a piaci hangulatra.

Egy olyan megközelítés, amely az IRL-t alkalmazza a piaci hangulatok és ármozgások közötti kapcsolat megtanulására, figyelembe veszi, hogy a befektetői hangulat nemcsak statikus bemeneteként, hanem az adott piaci állapotokhoz adaptálódó döntésként jelenik meg. A különböző befektetői hangulatok (például pozitív vagy negatív érzelmi állapotok) befolyásolják az árazást és a piacok mozgását, és ezeket az algoritmusok képesek felismerni, hogy javítsák a jövőbeli előrejelzéseket és optimális kereskedési stratégiákat alkossanak.

Yang et al. (2018) dolgozata, amely az IRL-t alkalmazza a befektetői hangulatok elemzésére, példaként szolgál arra, hogy a piaci hangulatok hogyan segíthetnek a jövőbeli részvényárfolyamok előrejelzésében. Az alkalmazott megközelítés lényege, hogy a különböző hírelemzéseken alapuló piaci hangulatokat három alapvető kategóriába sorolják: magas, közepes és alacsony hangulat. Ezen hangulati kategóriák segítségével egy olyan valószínűségi alapú modell jöhet létre, amely képes a jövőbeli ármozgásokhoz kapcsolódó jeleket felismerni.

A gyakorlatban a modellek úgynevezett GPIRL (Gaussian Process IRL) algoritmusokat alkalmaznak, amelyek segítenek az optimális kereskedési stratégiák kialakításában. Az ilyen rendszerek előnye, hogy képesek alkalmazkodni a piac dinamikájához, miközben figyelembe veszik a pénzügyi piacok komplex, több résztvevős interakcióit. Az egyes befektetők hangulata és döntései összhangban állnak a piacon történt változásokkal, így a modellek ezen tényezők alapján képesek előre jelezni a piaci trendeket.

Egy másik érdekes megközelítés az ún. "láthatatlan kéz" modellezése. A piac optimális portfóliója, amelyet a legtöbb aktív menedzsment alap benchmark-ként használ, gyakran egy olyan dinamikus modell alapján alakul, amelyben egyetlen ügynök viselkedése összegzi az összes piaci szereplő döntéseit. A Halperin és Feldshteyn (2018) által javasolt modell szerint egy ilyen ügynök viselkedése a teljes piac dinamikáját képes leírni, anélkül hogy minden egyes piaci résztvevő külön-külön lenne figyelembe véve.

Ez a megközelítés lehetőséget biztosít arra, hogy az "láthatatlan kéz" elméletet alkalmazva egyetlen ügynök döntéseinek segítségével tanulmányozzuk a piaci optimalizálás folyamatát. Az optimalizált portfólió megtalálása tehát nemcsak az egyes piaci szereplők döntéseiből, hanem a piac összes szereplőjének kollektív döntéseiből ered. Az így kialakított modellek segíthetnek a különböző piaci portfóliók optimalizálásában és jobb előrejelzéseket kínálhatnak a jövőbeli piaci trendekre.

A piaci hangulatok és az IRL alkalmazásának egy másik előnye, hogy a modellek képesek figyelembe venni a különböző típusú piaci szereplők jelenlétét, például a racionális, korlátozott racionalitású vagy éppen irracionális "zajos kereskedőket". Ezen szereplők döntései, valamint a folyamatosan elérhető új információk és piaci jelek mind hozzájárulnak a piaci dinamikák alakulásához.

Az irányított tanulás (supervised learning) és az inverz megerősítő tanulás (IRL) közötti különbség, hogy míg az előbbi egyszerűen bemenetként kezeli a piaci hangulatot és az árfolyamokat, addig az utóbbi dinamikusan alkalmazkodik a piaci környezethez, figyelembe véve a hangulatok és a döntések közötti kölcsönhatásokat.

Az IRL alkalmazása tehát különösen hasznos lehet a befektetési stratégiák finomhangolásában és a piaci trendek előrejelzésében. A modellek képesek adaptálódni a különböző piaci helyzetekhez, és az egyes szereplők döntéseit figyelembe véve optimalizálni a kereskedési vagy befektetési döntéseket.

Hogyan alkalmazható az Inverse Reinforcement Learning (IRL) a vevői preferenciák modellezésére?

Az Inverse Reinforcement Learning (IRL) az egyik legfontosabb eszköze annak, hogy a mesterséges intelligencia rendszerek képesek legyenek megtanulni, hogyan kell helyesen viselkedni olyan környezetekben, ahol explicit szabályok vagy célok nincsenek megadva. Ahelyett, hogy egyértelmű szabályokat vagy díjazási rendszert hoznánk létre, az IRL lehetővé teszi a rendszerek számára, hogy megfigyeljék és utánozzák az emberi viselkedést, és ezen alapuló döntéseket hozzanak. Ez különösen fontos a vevői preferenciák és döntési mechanizmusok modellezésében, ahol az emberek nem mindig képesek explicit módon kifejezni azokat a preferenciákat, amelyek alapján vásárlási döntéseket hoznak.

A vevői választások tanulmányozása az IRL segítségével különböző alkalmazásokat kínál, például a termékajánlók, hirdetési rendszerek vagy személyre szabott ajánlatok optimalizálásában. Az IRL-ben alapvetően azt próbáljuk rekonstruálni, hogy mi motiválja a vevőt egy adott döntés meghozatalában, vagyis melyek azok az implicit preferenciák, amelyek irányítják a vásárlási folyamatot. A hagyományos gazdasági modellek, mint például a közgazdasági elméletek, gyakran azt feltételezik, hogy a fogyasztók racionálisan döntenek, azaz maximálják a saját hasznukat. Az IRL azonban arra a felismerésre épít, hogy a fogyasztói döntések sokkal összetettebbek, és gyakran az intuíció, a tapasztalat és az érzelmi tényezők befolyásolják őket.

Az egyik legfontosabb kérdés az, hogy hogyan lehet meghatározni a vevői haszonfüggvényt. A vevői haszonfüggvény egy olyan matematikai modell, amely meghatározza, hogy az egyes termékek vagy szolgáltatások mennyire fontosak a fogyasztó számára. Az IRL-ben az ilyen haszonfüggvényeket az elérhető adatokból próbáljuk rekonstruálni, figyelembe véve a fogyasztó korábbi döntéseit és azokat a körülményeket, amelyek között ezek a döntések születtek. Az ilyen típusú elemzés lehetővé teszi a vállalatok számára, hogy jobban megértsék, mi motiválja a fogyasztókat, és ezáltal testreszabottabb ajánlatokat tudjanak adni.

Az IRL alkalmazásában kulcsfontosságú a maximális entrópia elve, amely arra épít, hogy a legvalószínűbb haszonfüggvény az, amely a legnagyobb fokú bizonytalanságot mutat, miközben összhangban van a megfigyelt döntésekkel. Ez segít abban, hogy az IRL a lehető legáltalánosabb megoldást találja a vevői döntések mögötti motivációk modellálásában, minimalizálva a torzítást és a túlzott specifikációkat.

A megfelelő adatmennyiség és a megfigyelési zaj kezelése is fontos szerepet játszik az IRL alkalmazásában. Az IRL általában nagy mennyiségű adatot igényel, hogy megbízható következtetéseket lehessen levonni a fogyasztói preferenciák alapján. Azonban az adatok gyakran zajosak, és a megfigyelési torzítások, mint például az egyéni különbségek vagy a környezeti hatások, befolyásolhatják az eredményeket. Ezért a pontos modellezés érdekében elengedhetetlen, hogy megfelelő adatfeldolgozási technikákat alkalmazzunk, és figyelembe vegyük a zaj hatásait a következtetések levonásakor.

A gyakorlati alkalmazások során az IRL lehetőséget biztosít arra, hogy a vállalatok szimulációkat végezzenek, és előre jelezzék, hogyan fog reagálni egy fogyasztó egy bizonyos ajánlatra vagy változtatásra. Az ilyen típusú szimulációk segítenek a döntéshozóknak abban, hogy jobban megértsék a piaci dinamikákat, és olyan ajánlatokat dolgozzanak ki, amelyek magasabb konverziót eredményeznek.

Az IRL alkalmazásának jövője nemcsak a fogyasztói viselkedés jobb megértésében rejlik, hanem abban is, hogy hogyan segítheti a vállalatokat a piacon való versenyelőny megszerzésében. A fogyasztók számára a személyre szabott ajánlatok és élmények növelhetik a vásárlási élményt, miközben a vállalatok számára is lehetőséget adnak arra, hogy jobban alkalmazkodjanak a változó fogyasztói igényekhez.

Fontos megérteni, hogy az IRL alkalmazása nem mentes a kihívásoktól. Az egyik legnagyobb probléma az, hogy sokszor nem áll rendelkezésre elegendő adat, vagy az adatok túl zajosak ahhoz, hogy megbízható következtetéseket lehessen levonni. A másik fontos szempont, hogy a vevői preferenciák idővel változhatnak, ezért a modelleknek képeseknek kell lenniük adaptálódni a változó környezethez. A dinamikus modellezés és az adattudományi technikák alkalmazása segíthet ezen kihívások leküzdésében, hogy az IRL valóban hasznos és hatékony eszközzé válhasson a vállalatok számára.