A QLBS modell egyik egyszerű kiterjesztését jelenthetik az opciók korai lehívásának lehetőségei. Ezt a lehetőséget a QLBS modellbe hasonló módon illeszthetjük be, mint ahogyan azt az amerikai Monte Carlo módszer Longstaff és Schwartz féle megközelítésében alkalmazzák. A visszafelé történő rekurzió során minden olyan időpontban, amikor korai lehívás lehetséges, az optimális cselekvés-érték függvényt úgy kapjuk meg, hogy összehasonlítjuk a következő időpontban folytatódó értéket a jelenlegi időpontban realizálható opció értékkel. Az utóbbi a lehetőség az opció azonnali lehívásából származó jövedelmet jelenti, amelyet a 10.2-es feladat is szemléltet. Ezen kívül egy másik lehetséges kiterjesztés a replikáló portfólió magasabb momentumainak figyelembe vétele. Ehhez nem kvadratikus hasznossági függvényt kell alkalmazni, mint azt Halperin (2018) ismertette. A számítási oldalon a nem kvadratikus hasznosság azt jelenti, hogy minden egyes időpontban konvex optimalizációs problémát kell megoldani a kvadratikus optimalizálás helyett.
A QLBS alapmodelljét tranzakciós költségek figyelembevételével is ki lehet egészíteni. Ebben az esetben újra kell definiálni az állapot- és cselekvés-térben szereplő elemeket, mivel tranzakciós költségek mellett a készpénz tartása nem egyenlő a részvény tartásával. Ebben az esetben a részvények változása a cselekvési változók szerepét tölti be, míg a jelenlegi részvénytartás és a részvénypiac árai az állapotvektor részeként szerepelnek. A tranzakciós költségek függvényétől függően a keletkező optimalizációs probléma lehet kvadratikus (ha mind a jutalom, mind a tranzakciós költség függvények kvadratikusak a cselekvés függvényében), vagy konvex, ha mindkét függvény konvex.
A következő lépés a több eszközös modellek, például az opció portfóliók bevezetése a QLBS alapmodellbe. A legnagyobb kihívást az jelenti, hogy megfelelő bázisfüggvényeket válasszunk. Több dimenzióban ugyanis ez komoly problémát jelenthet. Egy egyszerű módszer a többdimenziós térben egyéni bázisok kereszttermékének alkalmazása, azonban ez exponenciálisan növeli a szükséges bázisfüggvények számát, így egy ilyen naiv megközelítés nem alkalmazható, ha a dimenziók száma meghaladja a 10-et. A magas dimenziójú terekben végzett jellemzőválasztás a gépi tanulás általános problémája, nem csupán a megerősítéses tanulás vagy a QLBS megközelítés sajátja. Azonban az újabb kutatások segíthetnek a QLBS megoldásának javításában, és különféle fejlettebb módszerekkel is előrébb juthatunk.
A QLBS modell ezen kiterjesztései és módosításai különösen fontosak lehetnek a pénzügyi alkalmazásokban, különösen akkor, ha olyan problémákat kell megoldani, amelyek több eszközt és komplex kockázatkezelést igényelnek. Az alapmodell egyszerűségét és könnyű implementálhatóságát megőrizzük, miközben képesek vagyunk figyelembe venni a tranzakciós költségeket, korai lehívásokat és egyéb bonyolultabb tényezőket, amelyek elősegíthetik a pénzügyi piacokon való hatékonyabb döntéshozatalt.
Amikor a piaci portfóliók többrétegű optimalizálásáról van szó, egy másik fontos tényezőt érdemes figyelembe venni: a zaj jelenléte a nagy dimenziójú adatokban. A minták zajossá válhatnak, és ennek eredményeként a cselekvés-érték függvények, vagy akár a politikai függvények becslései is nagy mértékben ingadozhatnak. Ez különösen fontos, ha a hagyományos, determinisztikus politikák alkalmazása nem vezet kívánt eredményekhez. A probabilisztikus megközelítések, mint a G-learning, segíthetnek abban, hogy hatékonyan kezeljük ezt a problémát, miközben a számítási költségeket és a zajt is figyelembe vesszük a portfólióoptimalizálási folyamatok során.
Fontos, hogy az optimalizálás során alkalmazott módszerek figyelembe vegyék a konkrét piaci környezetet, és ne csak matematikai eszközökre hagyatkozzanak. A különböző modellekhez tartozó paraméterek megfelelő értelmezése és a piaci ingadozások hatékony kezelése kulcsfontosságú ahhoz, hogy a pénzügyi döntések valóban segíthessék a befektetőket a hosszú távú eredmények elérésében.
Hogyan alkalmazzuk a Max-Causal Entropy módszert a megerősítéses tanulásra?
A Max-Causal Entropy módszer a maximális entrópia elvét kiterjeszti a szekvenciális döntéshozatali problémákra, amelyek a jövőbeli állapotokkal való kapcsolódást figyelembe véve igyekeznek fenntartani a kauzalitási viszonyokat. Míg a hagyományos MaxEnt probléma egyszeri lépésekre összpontosít, addig itt a korlátozások már az egész pályákra vonatkoznak, nem csupán az egyes lépésekre. Ez alapvetően azt jelenti, hogy a döntési szabályok figyelembe veszik az egész pálya dinamikáját, nem pedig egyetlen lépést, így biztosítva, hogy az egyes döntések következményei megfeleljenek a kauzalitás elvének.
A Max-Causal Entropy módszer célja, hogy a politikát kauzálisan kondicionálja, amely a döntések és a jövőbeli állapotok közötti ok-okozati kapcsolatokat fenntartja. Ebben az esetben, ha egy MDP (Markov-döntési folyamat) politikáját figyeljük, azt úgy faktorizálhatjuk, hogy a döntési szabályok a jövőbeli állapotoktól függetlenül is biztosítják a kauzalitás megőrzését. A politikai függvények, mint például π(at |st), a döntési változókként szolgálnak, és így a politika biztosítja a kauzalitásra vonatkozó kondicionáltságot.
A Max-Causal Entropy elmélete alapján újraformálható a probléma úgy, hogy a cél és a korlátozások felcserélődnek, és az alábbi kettős problémát kapjuk:
Ez a kettős forma lehetővé teszi, hogy a probléma konvexsé váljon, míg az eredeti formában a maximális entrópia nem-konvex problémát eredményezett. A kettős forma tehát az optimalizálás egy sokkal kezelhetőbb módszerét adja.
Azonban a kettős formát nemcsak a direkt megerősítéses tanulásra alkalmazhatjuk, hanem az inverz megerősítéses tanulás (IRL) problémák esetén is. Az IRL célja, hogy a valódi döntéshozók viselkedése alapján rekonstruáljuk a jutalmazási struktúrát, vagyis azt, hogy milyen jutalmak motiválják a döntéseket. Ez a megközelítés lehetővé teszi, hogy a környezetben megfigyelt adatok alapján tanuljuk meg a legoptimálisabb döntéshozatali politikát.
A Max-Causal Entropy módszer alkalmazása az IRL-re azt jelenti, hogy a politikák és a jutalmak közötti kapcsolatot az entropy alapján modellezzük. Az ilyen típusú optimalizálás során fontos figyelembe venni a Kullback-Leibler divergenciát, amely az információs költség mérésére szolgál, és a tanulási folyamatokat egy referenciális politikával való összehasonlításra alapozza. Ezáltal biztosítható, hogy a tanult politika a lehető legkevesebb információs költséggel jár, miközben fenntartja a szükséges kauzalitásokat.
A Max-Causal Entropy és az IRL együttes alkalmazása során olyan funkcionális értékeket kell optimalizálni, mint a szabad energia (free energy), amely lehetővé teszi a politikák számára, hogy a legjobb döntéseket hozzák a jövőbeli állapotok figyelembevételével. A szabad energia egyfajta értékfüggvény, amely a jutalmak és a politika közötti összefüggést modellezi, figyelembe véve a referencia politikát és annak eloszlási függvényeit.
Fontos megérteni, hogy a Max-Causal Entropy módszer alkalmazása nem csupán az optimális politika keresését jelenti, hanem egy olyan rendszer kialakítását is, amely figyelembe veszi a döntések hatásait a jövőbeli állapotokra, miközben minimalizálja a tanulás során felmerülő információs költségeket. Az optimális politika keresése tehát nem csupán a jutalmak maximalizálásáról szól, hanem egy összetett egyensúlyi helyzet megteremtéséről, ahol a kauzalitás, az entrópia és a referencia politika mind fontos szerepet játszanak.
Amikor a G-tanulás vagy a Max-Causal Entropy optimalizálás egy MDP (Markov-döntési folyamat) problémára alkalmazható, akkor az optimális politika elérésének módja lényegében ugyanaz, mint a hagyományos Boltzmann-eloszlás alkalmazásánál, azonban most egy új energiamodellt kell alkalmazni. Ez az energia nem zárt formában létezik több lépéses problémákban, hanem rekurzívan kell meghatározni az önállóan konszolidált G-tanulási egyenletek alapján.
Ez az új modell lehetővé teszi, hogy az akciók és a jövőbeli állapotok közötti összefüggéseket pontosabban és hatékonyabban modellezzük, miközben optimalizáljuk az adott politikát az összes lépésre vonatkozóan.
Hogyan érdemes kezelni a Chernoff-típusú határokat és a neuralis hálózatok érzékenységeit?
A Chernoff-típusú határok alapvető szerepet játszanak az olyan eltérések becslésében, amelyek a véletlen kísérletek eredményei és azok várható értékei között jelentkeznek. Egy ilyen kísérlet esetében, ha van egy J nevű véletlen változónk, amely az egyes próbák kimeneteleinek összege, akkor a Chernoff-típusú egyenlőtlenség segít meghatározni, hogy milyen valószínűséggel fordul elő, hogy a J értéke meghaladja a várható értékét (μ) egy bizonyos mértékben. Az alábbi egyenlet adja meg ezt a valószínűséget:
Ez a határ egy fontos eszköze a nagy eltérések, azaz a "farok régiók" kezelésének, amikor a kísérlet eredményei jelentősen eltérnek az átlagos viselkedéstől. A δ paraméter azt méri, hogy mennyivel kell meghaladnia a J változónak az átlagot a várható értékhez képest, és a valószínűség, hogy ilyen eltérés történik, gyorsan csökken a δ növekedésével. Hasonló egyenlőtlenség létezik a J értékének az átlagtól való lefelé történő eltérésére is, amely a következőképpen van megadva:
Az ilyen típusú határok segítenek abban, hogy a statisztikai modellünk képes legyen megbecsülni a szélsőséges események előfordulásának valószínűségét, különösen akkor, amikor a kísérletek eredményei eltérnek a várható értéktől.
Ezek a határok azonban jellemzően gyengék, és elsősorban akkor hasznosak, amikor a modellezett folyamatok eltérése a várható értéktől meglehetősen nagy. A Chernoff-típusú határoknál is megfigyelhető, hogy a különböző μ értékekhez tartozó valószínűségi határok fokozatosan csökkennek, ahogy az eltérés mértéke (δ vagy γ) növekszik. Az ilyen típusú határok a gyakorlatban leginkább akkor alkalmazhatóak, amikor az érdeklődés a szélsőséges, de nem valószínű események vizsgálatára irányul.
A következő részben egy szimulált példán keresztül mutatjuk be a neuralis hálózatok érzékenységeinek becslési tulajdonságait, amelyek adatokból származnak, és amelyek egy lineáris modellt követnek. Az érzékenységek kiszámítása során azt vizsgáljuk, hogy a neuralis hálózatok érzékenységei hogyan illeszkednek egy lineáris modellhez, még akkor is, ha maga a neuralis hálózat nemlineáris. Ezen kívül azt is bemutatjuk, hogy a mintavétellel becsült konfidencia intervallumok hogyan konvergálnak a növekvő rejtett egységek számával. A következő szimulált kísérletet használjuk bemutató célokra:
A neuralis hálózatok alkalmazásának előnye abban rejlik, hogy képesek a lineáris modelleket is hatékonyan modellezni, miközben a nemlineáris funkciókat is jól kezelik. Egy egyszerű példában, ahol a bemeneti változók és az eredmény is lineárisan kapcsolódik egymáshoz, a hálózatok paramétereit a sztochasztikus gradiens csökkenés algoritmusával illesztjük, így a becsült paraméterek értékei minden egyes optimalizációs futtatás során eltérhetnek. Azonban a sensitivity kifejezések zárt formában vannak, és könnyen hozzárendelhetők a lineáris modellhez.
Továbbá figyelmet kell fordítani arra, hogy az olyan modellek, amelyek nem lineáris kapcsolatokat tartalmaznak, eltérhetnek a lineáris modellek által becsült paraméterek értékeitől. Ez különösen fontos, ha nem lineáris adatgenerálási folyamatokkal dolgozunk, ahol a modell nem ad pontosan ugyanazon eredményeket, mint a lineáris modellek.
A neuralis hálózatokban használt aktivációs függvények is meghatározóak. A ReLU aktivációs függvények használata nem ajánlott, mivel nem teszik lehetővé az interakciós hatások azonosítását, és nem konvergáló érzékenységi varianciákat eredményezhetnek a rejtett egységek számának függvényében. Ezért fontos olyan aktivációs függvényeket választani, amelyek biztosítják a stabil és értelmes konvergenciát, például a tanh vagy ReLU-t követő változataikat.
A neuralis hálózatok alkalmazásának egyik előnye, hogy képesek a paraméterek közötti összefüggéseket és kölcsönhatásokat is modellezni, amit a hagyományos lineáris modellek nem mindig tudnak megfelelően kezelni. A különböző számú rejtett egységgel rendelkező hálózatok érzékenységei, mint a β̂1 és β̂2, konvergálnak a megfelelő eloszlásokkal, és az empirikus eloszlások élesedése figyelhető meg, ahogy a rejtett egységek száma növekszik. A 99%-os konfidencia intervallumok szűkülnek a rejtett egységek számának növekedésével, ami megerősíti, hogy a modell stabilitása javul, ahogy bővül a hálózat.
A neuralis hálózatok érzékenységeinek kiszámítása és azok elemzése fontos eszközként szolgálhat a pénzügyi modellek fejlesztésében és validálásában. Az érzékenységek meghatározása nemcsak a modell megbízhatóságát javítja, hanem segíti a modell érdemi interpretációját is, ami elengedhetetlen a pénzügyi elemzésben.
Hogyan működik a részecske szűrés és miért van szerepe a valószínűségi modellálásban?
A részecske szűrés (Particle Filtering) egy rendkívül fontos és széles körben alkalmazott módszer a sztochasztikus folyamatok és valószínűségi modellek valós időben történő követésére. Ezt a módszert különösen a pénzügyi modellekben, a dinamikus rendszerekben és a gépi tanulásban használják. A részecske szűrés az úgynevezett "fontossági mintavétel" (importance sampling) elvén alapul, és az alapötlet egyszerű: véletlenszerűen választunk ki egy állapotot a valószínűségi eloszlásból, majd ezt az állapotot iteratív módon frissítjük az észlelt adatokat felhasználva. Azonban a folyamat bonyolultsága az, hogy a választott állapotok nem mindig reprezentálják pontosan a valós rendszert, és szükség van a resampling (újramintavétel) lépésére, hogy biztosítsuk a pontosságot.
A resampling célja, hogy a részecskék közötti súlyeloszlás egyenletes maradjon, és hogy elkerüljük a részecskék degenerálódását, amikor az összes súly egyetlen pont köré koncentrálódik. Az úgynevezett multinomiális resampling algoritmus az egyik legelterjedtebb eljárás, mely során a részecskék kiválasztásakor figyelembe vesszük az előző mintavétel alapján számított súlyokat.
Az algoritmus három fő lépésből áll. Először kiszámítjuk a normalizált súlyokat az újramintavétel előtt, majd generálunk véletlenszerű számokat egy egyenletes eloszlásból, és végül kiválasztjuk azokat a részecskéket, melyek a legnagyobb súllyal bírnak. Az eredmény egy új, reszintet állapotokból álló részecske halmaz, amelyet ismét a következő lépésben használunk a modellezéshez.
A multinomiális resampling részletes matematikai leírása a következőképpen néz ki:
-
Normalizált súlyok: A normalizált súlyokat a következő képlettel számítjuk ki:
Ahol a nem normalizált súly, és a minták száma.
-
Kumulált összegek: A következő lépésben kiszámítjuk az egyes minták kumulált súlyait:
Az összes kumulált súlynak 1-nek kell lennie, mivel az összes súly normalizált.
-
Véletlenszerű kiválasztás: A kiválasztás során generálunk véletlenszerű számot egyenletes eloszlásból, és minden egyes számhoz hozzárendelünk egy részecskét a kumulált súlyok alapján. Ezt követően új, frissített halmaz keletkezik.
A fentiekben bemutatott resampling eljárás biztosítja, hogy a "sikeresebb" részecskék nagyobb súllyal szerepeljenek az új minták között, miközben a kevésbé sikeresek elhagyják a halmazt.
A részecske szűrés alkalmazása különösen hasznos a pénzügyi modellekben, mint például a sztochasztikus volatilitás (SV) modellek esetében. Az SV modellek képesek megragadni az eszközök volatilitásának időbeli változásait, és különösen fontosak a pénzügyi piacokon, ahol a volatilitás gyakran negatívan korrelál az eszköz árfolyamának változásaival. A leghíresebb alkalmazás a sztochasztikus volatilitás modelljein alapuló módszerek, mint például a sztochasztikus volatilitás a tőkeáttételes hatású ugrásokkal (SVLJ).
Az ilyen modellekben a részecske szűrés segítségével becsülhetjük az eszköz volatilitásának dinamikáját, még akkor is, ha az összes paraméter nem ismert előre. Az egyes modellek paramétereit, például a szórásokat, a tőkeáttételes hatás paramétereit vagy az ugrások intenzitását gyakran nem ismerjük pontosan, ezért szükség van az optimalizálásukra. Az egyik legelterjedtebb megközelítés az úgynevezett maximum likelihood (MLE) becslés, amely során a paraméterekre vonatkozó legvalószínűbb értéket keresünk, figyelembe véve a megfigyelt adatokat.
A statisztikai szűrés során a következő lépések valósulnak meg:
-
Becsült valószínűségek: A valószínűségi eloszlások figyelembevételével a részecskéket folyamatosan frissítjük, hogy jobban megfeleljenek a megfigyelt adatoknak. Ez lehetővé teszi a modellek paramétereinek finomhangolását.
-
Folyamatos értékelés: A modellek paraméterezése során az MLE egyre pontosabb értékeket adhat, ami segíthet a jövőbeli előrejelzésekben.
A sztochasztikus szűrés és a megfelelő resampling technikák kulcsfontosságúak abban, hogy a modellek pontosan kövessék a változó dinamikát, és képesek legyenek előrejelzéseket adni olyan komplex rendszerek esetében, ahol a valószínűségi modellek és a háttér zajok hatása alapvető fontosságú.
A gyakorlatban azonban a paraméterek pontos értékeinek meghatározása nem egyszerű feladat, és gyakran numerikus módszerek, például kvázi-Newton módszerek alkalmazására van szükség, hogy optimális eredményeket érjünk el. Az ilyen típusú szűrés segítségével nemcsak pontos előrejelzéseket készíthetünk, hanem a modellek paramétereinek finomhangolása is lehetővé válik, ami elengedhetetlen a dinamikus rendszerek hatékony kezeléséhez.
Hogyan működik a dilatált konvolúció a neurális hálózatokban?
A komplex sík egységkörében a jellemzők értékei nagyobbak, mint 1, i ∈ {1, . . . , p}. Ahogy korábban is, a gyökök kiszámítása érdekében az úgynevezett kísérőmátrix sajátértékeit kell meghatározni. Ha a ̃(L)−1 értékek szórása a zajfolyamatban {εs}ts=1 eltérő szekvenciát alkot, akkor a modell stabilnak tekinthető.
A konvolúciós neurális hálózatok (CNN) alapvetően arra építenek, hogy a bemeneti képeken található adatokat kis, fix méretű "szűrőkkel" (kernel mátrixok) feldolgozzák. A szűrő átcsúsztatásával minden pozícióban kiszámítják a bemeneti kép értékeinek összegét, hogy egy kimeneti értéket, az úgynevezett jellemzőt, generáljanak. Ez a művelet alapvetően a konvolúció, amely minden pozícióban egy adott műveletsort alkalmaz az adatokra. Például egy 3×3-as szűrőt alkalmazva egy 4×4-es bemeneti képre 2×2-es kimeneti jellemzőt kapunk, mivel csak 4 egyedi pozícióban végezhetjük el a szűrési műveletet.
A CNN-ek tervezésekor különösen fontos, hogy a bemeneti képet több csatornán keresztül kezeljük. A színes képek RGB csatornákat alkalmaznak, ahol minden csatorna a színek egy-egy komponensét képviseli. A szűrők által végrehajtott konvolúciók minden csatornára egyaránt kiterjednek, így a kimeneti térkép mérete csökkenthető a bemenethez képest. A szűrőméret meghatározza a neurális hálózat receptor mezőjét, azaz azt, hogy hány bemeneti adat pont befolyásolja a kimenetet.
A padding (kitöltés) egy kulcsfontosságú elem a konvolúciós rétegekben. A kitöltés szükséges ahhoz, hogy a kimeneti térkép ugyanakkora méretű maradjon, mint a bemeneti adat. Ezt úgy érhetjük el, hogy a képet úgy "kitöltjük", hogy a szűrő ne lépjen túl a kép határain. A kitöltés lehet nullával történő kitöltés, periódikus kitöltés vagy tükör-kiterjesztés, melyek mind különböző hatással vannak a feldolgozott kép végeredményére.
A CNN-ekben a legtöbb esetben a szűrőmozgás egyetlen lépéses (stride=1), de gyakoriak a stride-nal végzett konvolúciók is. A stride értéke meghatározza, hogy a szűrő hogyan mozog a képen, azaz milyen lépésekben történik a szűrés. A stride növelése kisebb kimeneti térképet eredményez, mivel a szűrő gyorsabban mozog, kevesebb helyet figyelembe véve.
A pooling rétegek további fontos elemként szerepelnek a CNN-ekben. A pooling célja a bemeneti adatok csökkentése, a redundanciák eltávolítása és a legfontosabb információk megőrzése. A legegyszerűbb pooling típus az átlagoló pooling (average pooling), mely a konvolúciót hasonló módon végzi el, de a számított értékek átlagát adja vissza. Ezen kívül létezik a max pooling, mely minden szűrőablakban a legnagyobb értéket választja ki.
A dilatált konvolúciók különösen hasznosak időbeli sorozatok vagy hangjelek feldolgozásában. Ezek a konvolúciók lehetővé teszik a modell számára, hogy hosszú távú, nemlineáris összefüggéseket tanuljon meg az adatokban. Az alapvető különbség a normál konvolúcióhoz képest, hogy a dilatált konvolúciók a szűrőt nem minden egyes elemen alkalmazzák, hanem a szomszédos elemek között "ugranak", így a hálózat képes nagyobb távolságokat átugrani, miközben a kimeneti méret nem változik.
A WaveNet például egy olyan CNN-architektúra, amelyet kifejezetten hangok feldolgozására terveztek, és amely a dilatált konvolúciók segítségével képes a hosszú távú kapcsolatok megtanulására. A dilatált konvolúciók lehetővé teszik, hogy a modell "finomabban" kezelje a hosszú távú időbeli kapcsolatokat, miközben csökkenti a szükséges paraméterek számát.
A dilatált konvolúciók egyik előnye, hogy lehetővé teszik az input és a kimenet közötti nagyobb távolságok figyelembevételét, miközben nem növelik túlzottan a modell komplexitását. Ez a típusú hálózat különösen hasznos, ha a bemeneti adatok időbeli vagy térbeli szempontból hosszú távú összefüggéseket mutatnak.
A hálózat receptor mezője, amely megadja, hogy a bemeneti adatok hány elemét befolyásolják a kimeneti értékek, alapvetően meghatározza a modell hatékonyságát. Minél több réteget alkalmazunk a hálózatban, annál nagyobb lesz a receptor mező, lehetővé téve, hogy a hálózat egyre komplexebb összefüggéseket tanuljon meg.
A dilatált konvolúciók tehát lehetővé teszik a modell számára, hogy hatékonyan kezelje a hosszú távú korrelációkat, miközben csökkenti a szükséges paraméterek számát, és így gyorsabban tanulhat. Az ilyen típusú modellek kiválóan alkalmasak olyan feladatokra, mint az időbeli sorozatok előrejelzése vagy más, hosszú távú összefüggéseket igénylő problémák.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский