A QLBS modell, amely a megerősítéses tanulásra (Reinforcement Learning, RL) épít, lehetőséget ad arra, hogy az opciók árának és fedezésének dinamikus optimalizálásával kezeljük a portfóliókat. E modell egyik kiemelkedő alkalmazása az, hogy lehetővé teszi az egzotikus opciók piacra helyezését akkor is, ha a piacon még nem kereskedtek hasonló típusú opcióval. Az alábbiakban a QLBS modell alkalmazásának további aspektusait és kiterjesztéseit vizsgáljuk meg, különös figyelmet fordítva a portfóliók kezelésére és a volatilitás mosolynak a kezelésére, amely az opciós piacok egyik legnagyobb kihívása.

Amikor egy opció eladója már rendelkezik egy előre meglévő portfólióval, és újabb opciót szeretne hozzáadni, figyelembe kell venni az új opció árazásának és fedezésének összhangját a meglévő portfólióval. A QLBS modell az optimális árazás és a fedezés egyszerű bővítését kínálja, amely rugalmasan alkalmazkodik a piaci változásokhoz. A piaci volatilitás és az árfolyamok dinamikája folyamatosan változik, így a modell segítségével könnyedén alkalmazhatjuk az úgynevezett volatilitás mosolyt (volatility smile), amely az opciók különböző strike árakhoz tartozó implikált volatilitásainak eltérését jelzi.

A portfóliók bővítésekor, ha az új opció már kereskedett az piacon, a modell egyszerűen hozzáadja az új opciót az adatbázisban meglévő adatokhoz, majd alkalmazza a Fitted Q Iteration algoritmust (FQI) a legjobb árazás és fedezés meghatározására. Ebben az esetben a QLBS modell figyelembe veszi az összes opció deltaképességét és nyereség-veszteség hatását a portfólió szintjén. Fontos megjegyezni, hogy mivel a QLBS modell off-policy tanulási algoritmus, a múltbeli hibák nem okoznak komoly problémát, és a modell alkalmazása akkor is eredményes, ha az adatok nem teljesen konzisztenssé válnak. A nagy mennyiségű és változatos adat elegendő ahhoz, hogy az optimalizált portfólió árát meghatározhassuk, és biztosíthassuk a volatilitás mosoly problémájának kezelését.

Ha az új opció soha nem kereskedett az piacon, és nem állnak rendelkezésre a hozzá kapcsolódó adataink, akkor a QLBS modell ezen a területen is képes alkalmazkodni. A modell ilyenkor egy proxy opció deltaképességeit és nyereség-veszteség hatásait használhatja a tanulás során, hogy meghatározza az optimális árat és fedezést. Az ilyen esetekben a tanulás lassabb lehet, mivel több adat szükséges az egzotikus opció pontos árazásához, de a proxy opciók minősége, amelyek közel állnak az eladni kívánt egzotikus opcióhoz, nagyban segíthetik a tanulási folyamatot.

A QLBS modell rugalmasan alkalmazkodik különböző típusú opciókhoz és piaci környezetekhez, lehetővé téve az opciók dinamikus fedezését és árazását. A modell nemcsak az egyszerű európai opciók, hanem a nem-vanília típusú opciók árazását is képes kezelni, például a straddle vagy egyéb egzotikus opciók esetén, amelyek bonyolultabb kifizetési struktúrákkal rendelkeznek.

A QLBS modell további kiterjesztési lehetőségei között szerepelnek a különböző típusú származtatott eszközök árazása, valamint a nagy volumenű portfóliók dinamikus kezelésére szolgáló megoldások, amelyek a volatilitás mosoly különböző szintjeit is figyelembe veszik. A modell további előnye, hogy folyamatosan képes alkalmazkodni a piacok és a kereskedési stratégiák változásaihoz, miközben biztosítja az árazás és fedezés konzisztenciáját minden egyes új típusú opció számára.

Ezek a tulajdonságok lehetővé teszik, hogy a QLBS modellt széleskörű alkalmazásokra, például az opciók portfóliókezelésére, a származtatott eszközök árazására és a volatilitás mosoly problémájának kezelésére alkalmazzuk. Az algoritmusok által biztosított nagy fokú rugalmasság és az adatokkal való dinamikus tanulás pedig segít a piaci változások gyors és hatékony feldolgozásában, miközben csökkenti a piaci kockázatokat.

Miért nem elég a szupervizált tanulás a kereskedési jelekhez?

A szupervizált tanulás célja, hogy olyan "jelek" (a megfigyelhető piaci adatok függvényei) találjanak, amelyek képesek előre jelezni saját jövőbeli értékeiket (azaz magas önkorrelációval rendelkeznek) és a jövőbeli eszközhozzáadatokat. A felügyelet mellett történő tanulás problémája azonban az, hogy ez nincs közvetlenül összefüggésben a végső célkitűzéssel, vagyis azzal, hogy a kereskedési algoritmus profitot termeljen a kereskedésből. Egy olyan kereskedési jel, amelyet szupervizált tanulással nyerünk, lehet, hogy előrejelzi saját jövőbeli értékét, és korrelál a tőzsdei hozamokkal, de mégsem lesz praktikus a használata. Például egy olyan stratégia, amely ezen jelre épít, túl magas tranzakciós költségeket eredményezhet, ami csökkenti a várható nyereséget. Azonban a tranzakciós költségek kezelése nem tartozik a szupervizált tanulás algoritmusaihoz, mivel ezek csak a kereskedés során merülnek fel, és nem tartoznak a problémakörhöz. Ez azt jelenti, hogy a szupervizált tanulás részét képező tanulási folyamat nincs közvetlenül összekapcsolva az optimális kereskedési döntés problémájával, amelynek a jelek alapján kellene megszületnie.

Amint a szupervizált tanulás segítségével megszereztük a kereskedési jeleket, azok ezután egy megerősítéses tanulásra építő ügynök bemeneti adataiként szolgálnak, amely a kereskedési stratégia optimalizálására törekszik. Ezért ebben a megközelítésben a jövő előrejelzése és a kereskedés optimalizálása elkülönítve történik. Más szóval, a kereskedő ügynök folyamatosan váltogatja ezeket a két feladatot, ahogy egyik időpontból a másikba lép. Ez a ciklikus percepció-akció mechanizmus, amely a tudatos és tudatalatti döntések során egyre inkább elmosódik.

A legtöbb jelenlegi módszer a percepció és az akció feladatokat különálló elemekként kezeli a percepció-akció ciklusban, ami világosan hierarchikus szerkezetet ad: az optimális kereskedési politika kidolgozása a legfontosabb feladat, míg a prediktív jelek megtalálása egy másodlagos feladat. Ez azt sugallja, hogy a kereskedési ügynök szabadon tervezheti meg az állapotábrázolását és a dinamikai törvényeket, amelyek kifejezetten az ügynök végső céljaihoz vannak hangolva, nem pedig olyan modelleket kell felépíteni, amelyek absztrakt értelemben "helyesek", de nem segítik elő a cél elérését. A következő részben olyan megközelítéseket mutatunk be, amelyek az észlelési és akciófeladatokat integrálni próbálják, nem pedig külön kezelik őket, ahogy az eddigi módszerek tették.

A percepció-akció ciklus a biológiai rendszerekben az információáramlás körkörös mozgását írja le, amely az élőlények és a környezetük között zajlik, miközben az érzékszervi vezérelt akciók célba érnek. Ugyanez a fogalom alkalmazható a mesterséges ügynökök és környezetük interakcióinak leírására is. Az ügynök akciói visszahatnak a környezetre, és ezáltal bonyolult függőségeket hoznak létre a percepció és az akció feladatai között. Ahogy az akciók változtatják a környezetet, a percepció nem passzív, hanem olyan cselekedetekre alapozódik, amelyeket az ügynök korábban kiválasztott. Az élő organizmusok esetében ez azt jelenti, hogy képesek valamilyen mértékig irányítani, hogy milyen érzékszervi inputokat tapasztalnak meg a jövőben, vagy hogy mely érzékszervi bemeneteket kell figyelmen kívül hagyni a tervezés során. Mesterséges ügynökök, például egy kereskedő ügynök esetében az érzékszervi inputokat a kereskedési jelek képviselik.

A percepció-akció ciklusban az észlelési és cselekvési feladatok szoros összefonódásban vannak. A Tishby és Polani (2011), Ortega és Braun (2013), Ortega et al. (2015) kutatásai alapján az információelméleti módszerek egyesítik és modelltől függetlenül írják le ezt a kölcsönhatást. A ciklus információáramlása kétirányú információátadási folyamatként jelenik meg. Először is van egy információáramlás a környezettől az ügynökhöz: például a piaci információ, amely a kereskedési jelek meghatározására szolgál. Másrészt az ügynök információt ad vissza a környezetnek. Egy kereskedési ügynök esetében könnyen észlelhető, hogy amikor egy ügynök nagy pozíciót vesz fel, a többi piaci résztvevő úgy értékeli, hogy az első ügynök valószínűleg valamilyen kiváló információval rendelkezett, ami lehetővé tette számára a kereskedést. Ezért a többiek módosítják a döntéseiket, és így a környezet is változik.

Az információelmélet és a megerősítéses tanulás összekapcsolása komoly előnyökkel jár. Az egyik ilyen példát a G-tanulás (G-learning) adja, amely a Q-tanulás valószínűségi kiterjesztése, és figyelembe veszi az ügynök információfeldolgozási korlátaikat a stratégia optimalizálásában. A G-tanulás képes feldolgozni zajos, nagy dimenziójú adatokat, és így egy hatékony eszközzé válik, amely lehetővé teszi a hatékony döntéshozatalt. Az információfeldolgozási költségek integrálása a döntési mechanizmusba egy elméleti megközelítés, amely segíthet abban, hogy az ügynök figyelembe vegye az információfeldolgozási költségeket a döntéseiben. A G-tanulás alapját képező elméleti keret lehetővé teszi az információáramlás további finomítását, amely segíthet az optimális kereskedési stratégia kialakításában.

Fontos azonban megjegyezni, hogy míg az információelméleti alapú megközelítések a biológiai és mesterséges ügynökök számára is hasznosak lehetnek, a pénzügyi alkalmazások számára az "végtelen-horizontú" beállítás nem lehet pontos. Azonban sok időlépésből álló problémák esetén egy közelítő végtelen-horizontú modell megfelelő lehet. A többlépéses döntéshozatal során is figyelembe kell venni, hogy a megfelelő információkezelési stratégiák kritikus szerepet játszanak az optimális döntések meghozatalában.

Hogyan befolyásolja a rejtett rétegek száma a neurális hálózatok teljesítményét?

A paraméterek térbeli eloszlása és az aktív rétegek hatása egyaránt kulcsfontosságú tényezők, amikor egy neurális hálózat működését próbáljuk megérteni. Az alapvető architektúrák, amelyeket az egyszerűbb feladatok megoldására használnak, a bemeneti tér különböző felosztásait alkalmazzák, hogy modellezni tudják az adott problémát. A hálózatok rejtett rétegeinek számának növelése jelentős változásokat hoz ezen felosztások struktúrájában, amivel a teljesítmény drámaian javulhat.

A legelső, legegyszerűbb architektúrák, mint a lineáris regressorok, nem tartalmaznak rejtett rétegeket, így a hálózat nem képes komplex, nemlineáris elválasztásokra. Egy rejtett réteggel rendelkező hálózat viszont már képes a bemeneti tér transzformálására, és az egyes adatpontok közötti kapcsolatokat más módon értelmezni. Ilyenkor a rétegben lévő neuronok segítenek a bemeneti adatok egy új, transzformált térbe való átvitelében, ahol a feladatot már könnyebb elvégezni. Minél több neuron található egy rejtett rétegben, annál nagyobb az expresszivitás, ami különösen fontos, ha a hálózatot komplexebb problémákra alkalmazzuk.

A rejtett rétegben található neurális egységek mindegyike egy olyan hipersíkot határoz meg, amely alapján a bemeneti adatokat osztályozhatjuk. Egy ReLU aktivációval rendelkező neuron esetén az adatpontok aktiválása a hipersík egyik oldalán történik, és a hálózat így képes a bemeneti tér minden egyes részét megfelelő módon felosztani. Ha több rejtett réteg kerül beépítésre, a probléma dimenziója egyre inkább bővül, és az egyes fél-terek keresztezik egymást, így a hálózat összetettebb döntéseket képes hozni.

Fontos, hogy a megfelelő számú rejtett rétegek és egységek meghatározása az alapvető célja a paraméterek becslésének és a modell kiválasztásának. Minél több réteg található egy hálózatban, annál nagyobb a lehetősége annak, hogy a bemeneti adatokat megfelelő módon leképezzük egy olyan térbe, ahol az adatok jobban elválaszthatóak egymástól. A mélyebb architektúrák exponenciálisan bővítik a lehetséges elválasztási síkok számát, és ezáltal a komplexitás mértékét is. Ez a geometriai értelemben vett elosztás, amely a bemeneti tér minden egyes részét különböző módokon jeleníti meg, különbözik a hagyományos gépi tanulási modellek eloszlásaitól, amelyek az adatokat a bemeneti tér lokális struktúrája alapján próbálják felosztani.

Mivel a bemeneti adatok térbeli eloszlása gyakran véletlenszerű, és egyre nagyobb dimenzióval rendelkező területeken egyre kevésbé koncentrálódnak, a hagyományos lineáris modellek nehezen alkalmazhatóak nagyobb dimenziójú adatokra. Azonban a neurális hálózatok, mivel képesek a bemeneti tér hipersíkokra történő felosztására, hatékonyan tudják kezelni a magas dimenziós adatokat. Az alacsony dimenziójú adatokat például jól osztályozhatják a hálózatok, mivel azok könnyen elférnek egy hipersíkon, de a nagy dimenziójú adatok esetében is biztosítani tudják az érdemi elválasztást a megfelelő hálózati architektúrával.

A pontos hálózati architektúra megtervezéséhez alapvetően szükség van egy bizonyos szintű koncepciós megértésre a neurális hálózatok működését illetően. A paraméterek és súlyok finomhangolása csak az egyik része a folyamatnak; a másik kulcsfontosságú tényező az, hogy miként érjük el azokat a területeket, amelyek valóban generalizálhatóak és alkalmazhatóak a valós problémákra. Ennek alapja az, hogy miként választjuk ki a hálózat számára a legmegfelelőbb rétegszámot és az egyes rétegek neuronainak optimális számát.

A hálózatok rétegeinek bővítésével nem csupán a teljesítmény javul, hanem a modellek pontossága is egyre nagyobb mértékben növekszik, mivel a mélyebb rétegek fokozatosan képesek egyre komplexebb összefüggéseket is felfedezni az adatok között. Így a döntéshozatali folyamat nem csupán lineáris módon történik, hanem a rendszer egyre inkább figyelembe veszi az adat összes rétegét, és annak bonyolult összefüggéseit.

A rejtett rétegek számának növelésével tehát egyre több és összetettebb döntési szabályt hozhatunk létre, amelyek a bemeneti adatokat egy olyan magasabb dimenziójú térbe transzformálják, ahol azok könnyebben elválaszthatóak. Ezért a neurális hálózatok sikeressége gyakran azon múlik, hogy megfelelően kezeljük a bemeneti tér és az azt meghatározó paraméterek közötti komplex kapcsolatok szabályozását.

Hogyan modellezhetjük a sorozatok autokorrelációját és előrejelzéseit ARMA-modellel?

A sorozatmodellezés egyik központi kérdése a megfelelő modellek kiválasztása, különösen akkor, amikor az adatok autokorrelációval rendelkeznek. Az autoregresszív modellek (AR) és mozgóátlag-modellek (MA) kombinálásával, az ARMA (p, q) modell segítségével képesek vagyunk pontosan modellezni az ilyen típusú adatokat. Az AR(p) és MA(q) modellek rendjét többféle módszerrel meghatározhatjuk, és az egyik leggyakoribb eszköz a parciális autokorrelációs függvény (PACF), valamint az autokorrelációs függvény (ACF) vizsgálata.

A parciális autokorrelációs függvény az autoregresszív modellek rendjének meghatározásában játszik fontos szerepet. Az ábrák és a grafikonok azt mutatják, hogy az AR(p) modell esetén a PACF gyorsan nullára csökken a megfelelő lag után, ami lehetővé teszi a modell rendjének pontos meghatározását. Az ACF viszont a mozgóátlag (MA) modellek esetén hasznos, mivel az ottani éles vágás azt jelzi, hogy a modell milyen mértékben tükrözi az adatok struktúráját.

A modellrend meghatározásának egyik gyakori módszere az Akaike információs kritérium (AIC), amely segít kiválasztani a legjobb illeszkedést. Az AIC a következő képlettel számítható:
AIC=ln(σ^2)+2kTAIC = \ln(\hat{\sigma}^2) + \frac{2k}{T}

ahol σ^2\hat{\sigma}^2 a maradék variancia, k=p+q+1k = p + q + 1 pedig az összes becsült paraméter száma. Az AIC-t úgy kell alkalmazni, hogy minimalizáljuk az értékét, figyelembe véve az illeszkedést és a modell összetettségét. A cél az, hogy olyan modellt válasszunk, amely a legjobb illeszkedést nyújtja a legkevesebb paraméterrel. Ez a megközelítés hasonló a gépi tanulásban alkalmazott regularizáláshoz, mint a LASSO vagy Ridge módszerek, de fontos különbség, hogy az AIC-t utólagosan becsüljük meg, míg a gépi tanulásnál közvetlenül minimalizáljuk a büntetett veszteségfüggvényt.

A Box-Jenkins megközelítés másik fontos része a modell diagnosztikája. Miután a modellt illesztettük, fontos ellenőrizni, hogy a maradékok (az eltérések) nem mutatnak-e autokorrelációt. Ha a maradékok között autokorrelációt találunk, az azt jelezheti, hogy a modell alulilleszkedett. A Box és Pierce-féle Portmanteau statisztika segítségével tesztelhetjük a nullhipotézist, miszerint az autokorrelációs koefficiensek nullák. Ha a statisztika értéke túl magas, el kell utasítanunk a nullhipotézist, és módosítani kell a modellt.

Egy másik hasznos diagnosztikai eszköz a Ljung-Box teszt, amely megnöveli a teszt teljesítményét véges minták esetén. Ez a teszt szintén a maradékok autokorrelációját vizsgálja, és ha a p-értékek alacsonyak, akkor a modell jól illeszkedik az adatokhoz. Ha a teszt nem sikerül, a Box-Jenkins megközelítést újra kell alkalmazni, amíg a modell megfelelően illeszkedik az adatokhoz.

Fontos kiemelni, hogy bár az ARMA-modell alkalmazása hatékony lehet az időbeli adatok modellezésére, nem biztos, hogy az így kapott modell erős előrejelző tulajdonságokkal rendelkezik. Az előrejelzés egyszerűen a modell feltételes várható értékének számítása, de a modell teljesítményét gyakran nem mérjük ki out-of-sample adatain. Az egyik jobb megközelítés a keresztellenőrzés, amely segít jobban általánosítani a modell teljesítményét. Azonban a Box-Jenkins megközelítés alapértelmezett módszere nem tartalmazza a keresztellenőrzést, ezért a modell validálásához szükséges további eszközöket is alkalmazni kell.

A predikciók készítésekor, ha az eredmények nem folytonosak, hanem kategorizáltak (például bináris események), akkor az ARMA-modell továbbra is alkalmazható, de a cél nem a feltételes várható érték, hanem a log-odds arány előrejelzése. Ilyenkor a logit függvényt használhatjuk, amely a log-odds arányt linkfüggvényként alkalmazza. Az ilyen típusú előrejelzésnél az eredmények értékelése történhet a zűrzavari mátrix, az F1-score vagy az ROC-görbék segítségével, amelyek nemcsak az időbeli adatokra, hanem keresztmetszeti modellekre is alkalmazhatók.

A modell alkalmazásakor tehát az AIC és a diagnosztikai tesztek kulcsszerepet játszanak, de az előrejelzés pontossága is erősen függ attól, hogy hogyan validáljuk a modellt. Az idősoros keresztellenőrzés és az egyéb előrejelzési metrikák használata elengedhetetlen ahhoz, hogy a modellek ne csak jól illeszkedjenek az eddigi adatokhoz, hanem képesek legyenek a jövőbeli események pontos előrejelzésére.