A gépi tanulás egyre bővülő területén az egyik fontos megközelítés, hogy a gépek nemcsak előre meghatározott jutalom (haszon) függvények alapján tanuljanak, hanem képesek legyenek viselkedési adatokból, például más ügynökök vagy emberek döntéseiből tanulni. A jutalomfüggvények nélküli tanulás, vagyis a demonstrációk alapján történő tanulás, egy rendkívül vonzó irányvonal a gépi tanulásban, mivel rengeteg olyan viselkedési adat áll rendelkezésre, mint a GPS-nyomkövetés, mobiltelefonos adatok vagy webes böngészési adatok. Az, hogy képesek legyünk tanulni mások viselkedéséből, különösen a gazdasági és ipari alkalmazások terén jelentős előnyökkel járhat.

De mit is jelent pontosan a demonstrációkból való tanulás? Egy lehetséges válasz az, hogy azt jelenti, hogy a megfigyelt viselkedés alapján, csupán az egyes döntések és cselekvések megfigyelése révén próbáljuk megtalálni az optimális stratégiát. Ezt a megközelítést imitációs tanulásnak (imitation learning) nevezik. Az imitációs tanulás hasonló a klasszikus, jutalom függvényekkel dolgozó megerősítéses tanuláshoz (reinforcement learning, RL), de anélkül, hogy ismernénk a jutalmakat. Csak a cselekvések sorozatát figyeljük meg, és a célunk az, hogy az optimális stratégiát kizárólag ezen adatok alapján rekonstruáljuk. Bár az imitációs tanulás alapvetően adat-inferencia problémaként tekinthető, jelentős eltérések vannak a hagyományos megerősítéses tanulás módszereitől.

A legfontosabb különbség, hogy az imitációs tanulás esetén az egyes megfigyelt pályákhoz rendelt optimális stratégiák közül sokféle is létezhet. Mivel bármely egyes megfigyelt állapotcselekvési sorozathoz végtelen sok politikai válasz rendelhető, az imitációs tanulás során felmerülő probléma ill-posed, azaz rosszul meghatározott. Ilyen típusú problémák esetén gyakran végtelen számú megoldás létezik, vagy egyáltalán nincs megoldás. Például, ha próbálunk rekonstruálni egy modell nélküli valószínűségi eloszlást, mint például egy részvényárfolyam jövőbeli eloszlása, akkor egy finomabb adatmintán belül nem biztos, hogy sikerül megtalálni az egyedi megoldást.

A klasszikus gépi tanulás módszerekkel, mint amilyen a felügyelt tanulás (supervised learning), próbálkozhatunk úgy is, hogy az egyes megfigyelt adatokat, például állapotokat és cselekvéseket, mint bemeneti és kimeneti adatokat használunk. Ezzel a módszerrel próbáljuk közvetlenül felépíteni a stratégiát, mintha az egy klasszikus osztályozási vagy regressziós probléma lenne. Ez az eljárás is működhet, de számos hátránya van. Az egyik legnagyobb probléma, hogy az így tanult politika nem mindig képes jól általánosítani új, eddig nem látott állapotokra. A cselekvési politika minden egyes állapotot független entitásként kezel, így a különböző állapotok közötti kapcsolat nem épül be a modellbe. A felügyelt tanulás így nem biztosít információt arról, hogyan kapcsolódnak egymáshoz az állapotok. Ez jelentős problémát jelenthet, mivel ha a tanult politikát több lépésen keresztül alkalmazzuk, a hiba felhalmozódhat, és a végrehajtott cselekvések állapot-eloszlása eltérhet az eredeti bemutatott eloszlástól.

Ezért az imitációs tanulás és más módszerek kombinációja szükséges, különösen akkor, ha nincs rendelkezésre álló jutalomfüggvény. Egy olyan összetett megközelítés, amely a különböző technikák keverésére épít, alapvetően jó megoldás lehet, de valójában a részletek sokszor kihívást jelenthetnek. Például használhatunk rekurzív neurális hálózatokat az állapotdinamikák modellezésére, és egy előrehaladó hálózatot a stratégia közvetlen paraméterezésére. Mindkét hálózat paramétereit az adatok alapján lehet tanulni, például sztochasztikus gradiens-descent (SGD) módszerekkel. Azonban ha a dinamikák eltérnek a modell tanulása során alkalmazottaktól, a tanult politika könnyen al-optimalizálttá válhat, mivel a dinamikák és a stratégia összefonódnak egy komplex módon.

Ebben a kontextusban az erőforrást keresve egy másik megközelítés merül fel: ha a jutalomfüggvényt sikerül megtanulni az imitációs tanulásból, akkor az ezt követő optimalizálás, akár új környezetben is, alkalmazható. A Russell által 1998-ban javasolt módszerek, amelyek a jutalomfüggvény megtanulására építenek, ma inverse reinforcement learning (IRL) néven ismertek. Az IRL legnagyobb előnye, hogy a megtanult jutalomfüggvény más környezetekben is alkalmazható, mivel az csak az ügynök preferenciáira vonatkozik, és nem a környezet sajátos dinamikáira. Az IRL alkalmazása széleskörű lehetőségeket kínálhat a pénzügyi szektor számára is, mint például kereskedési stratégiák azonosítása, érzület-alapú kereskedés, opcióárazás, portfólió-investezők következtetései és piaci viselkedés modellezése.

Mindezek fényében az imitációs tanulás és az inverse reinforcement learning alkalmazása nemcsak elméleti, hanem gyakorlati szempontból is új lehetőségeket adhat a pénzügyi modellek fejlesztésében. Ahogy az ilyen típusú algoritmusok fejlődnek, és az alkalmazási környezetek bővülnek, úgy az üzleti és ipari világ számára is egyre inkább elérhetővé válnak az olyan módszerek, amelyek nemcsak pontosabb előrejelzéseket, hanem rugalmasabb és adaptívabb modelleket is kínálnak.

Hogyan lehet megkülönböztetni a valódi heterogenitást a mintavételi hibák okozta zajtól az Inverse Reinforcement Learning segítségével?

A modell és az adat között meglévő különbségek gyakran olyan szignifikáns hatásokat eredményezhetnek, amelyeket nem a modell tényleges heterogenitása, hanem inkább az adatokban jelen lévő zaj okoz. Az Inverse Reinforcement Learning (IRL) alkalmazása esetén alapvetően fontos, hogy az egyes ügynökök közötti paraméterkülönbségek statisztikai értelemben jelentősek legyenek. Amennyiben a paraméterek közötti eltérések nem elég erősek, akkor a heterogenitás, amelyet az IRL révén tapasztalunk, csupán az adatmintákban lévő zaj artefaktuma lehet.

Az ilyen típusú problémák kezelésére célszerű egy óvatos megközelítést alkalmazni, amely lehetővé teszi a valódi heterogenitás és a mintavételi hiba miatti látszólagos heterogenitás megkülönböztetését. A klasszikus statisztikai megközelítések, például a konvergencia sebességek, hatékonyan alkalmazhatóak olyan esetekben, amikor a valószínűségi függvény analitikus módon kezelhető. Ilyen például a maximum-likelihood (MLE) módszer, amely a négyzetes hibát alkalmazza a becsléshez. Azonban ha nem paraméteres modellekkel dolgozunk, akkor előfordulhat, hogy a valószínűségi függvény nem zárható le analitikusan, és a véges mintákon végzett konvergencia-analízishez nem állnak rendelkezésre pontos analitikai eredmények.

Ebben az esetben a Monte Carlo szimulációk adhatnak gyakorlati alternatívát az analitikus képletek helyett. Az IRL során becsült paraméterek statisztikai értelemben azonosíthatók, mint becslések, így az ilyen típusú becslők hatékonyságát és a megfigyelt véges minta zaj hatását a modell szimulálásával is ellenőrizhetjük. A szimulált adatokat, amelyeket ugyanazon modell paramétereivel generáltunk, felhasználhatjuk arra, hogy meghatározzuk a paraméterek előre jelzett értékeinek eloszlását. Ezt az eloszlást összevethetjük a valós paraméterekkel, így értékelve az IRL becslők véges minta-alapú teljesítményét.

A Monte Carlo szimulációk különösen hasznosak a MaxEnt IRL keretrendszer alkalmazásában, amely a generatív modell segítségével képes szimulálni a különböző ügynökök közötti heterogenitást, miközben érzékeli a megfigyelt adatokból származó zajt. Az ilyen típusú modellek lehetővé teszik az adatgyűjtés és a szimulált adatok összehasonlítását annak érdekében, hogy a valódi heterogenitás hatásait kiemeljük a zajok hatásai mellett.

A modellek paramétereinek becslése után a következő lépés a "counterfactual" szimulációk elvégzése. Az IRL révén becsült paraméterek segítségével például a felhasználói jutalmakat szimulálhatjuk, miközben különböző kezdeti prémiumokat, árakat és kvótákat alkalmazunk. A modell determinisztikus jellegét kihasználva, amelyben az újabb fogyasztási és kvóta értékek kiszámíthatóak a múltbeli adatok alapján, az IRL révén becsült jövőbeli cselekvések valószínűségei pontosan meghatározhatók.

A Monte Carlo szimulációk és a "posterior" eloszlások, mint a kevert diszkrét- és folytonos prior eloszlások alkalmazása lehetővé teszik a fogyasztói viselkedés pontos modellezését. A szimulált napi fogyasztási pályák és a fennmaradó kvóta szcenáriók elemzése segíthet annak megértésében, hogy miként alakulhatnak a fogyasztói döntések különböző feltételek mellett, és milyen hatással van a megfigyelt adatminták zajtartalma a modellezett eredményekre.

A végső cél tehát nem csupán a paraméterek optimális becslése, hanem annak vizsgálata is, hogy miként reagál a modell a mintavételi hibákra és a véges minta méretére, valamint hogy a különböző közelítések hogyan képesek biztosítani a valódi heterogenitás elkülönítését a zajtól.

Miért fontos a kevert modellekben az elrejtett változók szerepe?

A kevert modellek alapvetően több valószínűségi eloszlás kombinációjából származó adatokat írnak le, ahol az egyes komponensek eltérő viselkedést mutatnak. Ezen modellek alkalmazása során gyakran előfordul, hogy az adatok forrása nem egyértelmű, tehát nem tudjuk biztosan, hogy egy-egy adatpont melyik eloszlásból származik. A modellezési folyamat során tehát szükség van egy elrejtett, vagyis rejtett változóra, amely segít meghatározni, hogy egy-egy adatpont az egyes komponensek közül melyikhez tartozik.

A kevert modellekben az adatpontokat egy olyan rejtett változó (jelölve S) kíséri, amely az egyes eloszlások közötti "húzódást" jelzi. A rejtett változó értéke az adatok alapján nem közvetlenül megfigyelhető, viszont az egyes mintákhoz tartozó eloszlások kiválasztása a valószínűségek segítségével modellezhető. A rejtett változó különösen akkor válik fontossá, amikor a kevert modellek paramétereit szeretnénk becsülni, és az adatok alapján kell meghatároznunk, hogy egy-egy adat melyik eloszlásból származik.

A kevert modellekben tehát a minták "rejtett állapotot" választanak egy adott eloszlásban, amit az S változó reprezentál. Az S változó értékei bináris vektorok, amelyek meghatározzák, hogy az adat az adott komponenshez tartozik-e. Az egyes adatpontokhoz tartozó valószínűségi eloszlások a modell paraméterei, például a keverési súlyok (π), valamint az egyes eloszlások saját paraméterei (θ) formájában vannak jelen. Ezek a paraméterek az adatokat leíró valószínűségi sűrűségfüggvények, és a modell paraméterei közvetlenül befolyásolják az adatok leírásának minőségét.

A kevert modellek paramétereinek becslésére a legvalószínűségi módszer, az úgynevezett elvárás-máximálás (EM) algoritmus alkalmazható. Az EM algoritmus két fázisból áll, és célja, hogy maximalizálja az adat valószínűségét a modell paramétereinek ismeretében. Az algoritmus első lépésében az adatok alapján a rejtett változók eloszlását kell becsülni, figyelembe véve a meglévő paramétereket. A második lépésben pedig az adatok és a becsült rejtett változók segítségével történik a paraméterek újraértékelése.

A két fázis között folyamatos iterációk történnek, amíg a paraméterek konvergálnak egy stabil értékre. Az EM algoritmus tehát egy iteratív folyamat, amely biztosítja, hogy a modell paraméterei folyamatosan javuljanak, figyelembe véve az új adatokat és a korábbi becsléseket. Az EM algoritmus alkalmazása különösen akkor hatékony, ha az adatokat nem lehet egyértelműen hozzárendelni egyetlen eloszláshoz, és a minták szétválasztása rejtett állapotok segítségével történik.

Bár a kevert modellek rendkívül rugalmasak és számos alkalmazásra alkalmasak, fontos figyelembe venni, hogy nem minden adat esetében a legmegfelelőbbek. Az adatok viselkedése és a kevert eloszlások tulajdonságai kulcsfontosságú tényezők, amelyek befolyásolják a modell sikerességét. Például ha az adatok erősen szimmetrikus eloszlásokkal rendelkeznek, akkor a kevert modellek nem biztos, hogy a legjobb választást jelentik, és érdemes alternatív modelleket is mérlegelni.

A kevert modellek további előnye, hogy jól kezelik a "nehéz farkú" adatokat, amelyek szélsőséges értékekkel rendelkeznek, mivel a több komponens alkalmazása lehetővé teszi, hogy a szélsőséges esetek más-más eloszlásokhoz tartozzanak. Az ilyen típusú modellek esetén azonban nagyobb minta méretek szükségesek ahhoz, hogy megfelelően illeszkedjenek az adatokhoz.

Fontos, hogy a kevert modellek megfelelő alkalmazása érdekében a felhasználó tisztában legyen azzal, hogy a paraméterek, különösen a keverési súlyok és az eloszlások paraméterei, hogyan befolyásolják az adatokat. A kolmogorov-Smirnov teszt vagy az entrópia alapú kritériumok segíthetnek meghatározni a szükséges komponensek számát, de mindenképp ajánlott az adatok viselkedését figyelembe venni a megfelelő modellválasztás előtt.

A kevert modellek nagy előnye, hogy lehetőséget adnak az adatok komplex szerkezetének a felfedezésére, ugyanakkor fontos megérteni, hogy egy jól illeszkedő modell kiválasztása nem mindig egyszerű feladat. Az ilyen típusú modellek esetében mindig figyelembe kell venni az adatok jellegét, a minta méretét és a modell paramétereinek helyes beállítását.

Hogyan javíthatjuk a politikát és optimalizálhatjuk az értékeket a megerősítéses tanulás során?

A politikajavítás lépése a következő: kiszámoljuk az új politikát []π(k)=argmaxaA p(ss,a)R(s,a,s)+γV(k1)(s)\sum [ ] \pi(k) = \arg \max _{a \in A} \ p(s′|s, a) R(s, a, s′) + \gamma V^{(k-1)}(s′). Minden iteráció során először kiszámoljuk az értékfüggvényt az előző politikával, majd frissítjük a politikát az aktuális értékfüggvény felhasználásával. Az algoritmus garantáltan konvergál egy véges állapotú MDP esetében, amely korlátozott jutalmakkal rendelkezik. Fontos megjegyezni, hogy ha az állapotterület dimenziója nagy, akkor a politikai értékelés többszöri futtatása költséges lehet, mivel nagy dimenziós lineáris egyenletrendszereket kell megoldani. Az optimális irányítás gyakorlati problémáit gyakran nagy diszkrét állapot- és akciótérrel, vagy folyamatos állapot- és akciótérrel kell kezelni. Ilyen környezetekben a Bellman (1957) által bevezetett dinamikus programozás (DP) módszerei, valamint az olyan algoritmusok, mint a politikai iteráció vagy az értékiteráció, már nem alkalmazhatóak hatékonyan.

A megerősítéses tanulás (RL) módszereit kifejezetten az ilyen kihívások praktikus megoldására fejlesztették ki. A következő részben a "value iteration" (értékiteráció) algoritmusát mutatjuk be, amely egy másik klasszikus algoritmus a véges és időben állandó MDP modellek számára. Ellentétben a politikai iterációs módszerrel, az értékiteráció elkerüli a politikajavítási lépést, és közvetlenül az optimális állapot-értékfüggvény V(s)V^{*}(s) megtalálására irányul. Az értékiteráció a Bellman optimáliság egyenletét alkalmazza frissítési szabályként, amelyet iteratív módon alkalmazunk.

Az értékiterációs módszer úgy működik, hogy először az értékfüggvényt inicializáljuk valamely kezdeti értékkel, például V(0)(s)=0V^{(0)}(s) = 0 minden egyes állapot esetén. Ezután minden egyes iterációban a Bellman optimáliság egyenletét alkalmazzuk, hogy frissítsük az értékfüggvényt:

V(k)(s)=maxaE[R(s,a,s)+γV(k1)(s)],V^{(k)}(s) = \max_{a} \mathbb{E}[R(s, a, s′) + \gamma V^{(k-1)}(s′)],

ahol V(k)(s)V^{(k)}(s) az aktuális iteráció értékfüggvénye. Ezt az eljárást kétféle módon alkalmazhatjuk: szinkron frissítéssel, amikor az összes állapotot egyszerre frissítjük, vagy aszinkron frissítéssel, amikor egy-egy állapot értéke folyamatosan frissül, amint az aktuális iterációban újra kiszámítjuk.

A szinkron frissítés akkor hasznos, ha viszonylag kevés állapot érdekel minket az optimális megoldásban, és az összes állapot egyszeri frissítése hatékonyabb. Az aszinkron frissítés inkább olyan problémákhoz alkalmazható, amelyek nagy állapot- és akciótérrel rendelkeznek, hiszen sok esetben a teljes állapotterület frissítése túl költséges lehet, ha a legtöbb állapot nem játszik szerepet az optimális megoldásban.

Az értékiteráció algoritmusának alapja rendkívül egyszerű, és jól működik, amennyiben az állapot-akció tér diszkrét és kis számú állapotot tartalmaz. Azonban, mint a politikai iteráció esetében, az értékiterációs algoritmus is gyorsan nem alkalmazható nagy dimenziós diszkrét vagy folyamatos állapotterekben, mivel a memóriaigények exponenciálisan megnövekednek. Ezt az jelenséget a DP irodalom "dimenzionalitás átkaként" említi.

A dinamikus programozásban az idő, amelyre a megoldásokat megtaláljuk, polinomiálisan nő az állapotok és akciók számával. Ez jelentősen megnövelheti a számítási időt, különösen nagy dimenziójú problémák esetén. A DP alkalmazásának egyik gyakori megoldása a folyamatos állapot- és akciótér diszkrétizálása, de ezt a módszert csak akkor lehet alkalmazni, ha az állapotdimenzió alacsony, jellemzően nem haladja meg a három-négy dimenziót.

A megerősítéses tanulás módszereivel kapcsolatos előny az, hogy azok mintákkal dolgoznak, amelyek mindig diszkrét értékekkel rendelkeznek, még akkor is, ha a disztribúciók folyamatosak. A mintavételen alapuló megközelítés és a megfelelő függvény-approximitációs módszerek kombinálása lehetővé teszi, hogy az RL képes legyen folyamatosan értékelni a többdimenziós állapotokat és akciókat. Ez különösen előnyös, ha a világ modellje ismert (vagy előzetesen adatból becsülhető), de az állapotterület dimenziója túl nagy ahhoz, hogy alkalmazni lehessen a hagyományos érték- vagy politikai iterációs módszereket.

A dinamikus programozás tehát pontos numerikus számítást igényel az optimális értékfüggvény meghatározásához minden állapotra a diszkrét állapotterekben, míg sok esetben, különösen magas dimenziós problémák esetén, az értékfüggvények közelítő számítása hasznosabb, ha kevesebb paraméterrel dolgozunk, mint amennyit a kezdeti állapotterület dimenziója megkíván. Az ilyen típusú megoldásokat "közelítő dinamikus programozásnak" nevezzük, és akkor alkalmazzuk, amikor az állapotterület dimenziója túl nagy a hagyományos megközelítésekhez.

A megerősítéses tanulás tehát közvetlenül adatmintákon dolgozik. Ha ezt mintavételi alapú megközelítést megfelelő függvény-approximitációs módszerekkel ötvözzük, képesek leszünk kezelni a magas dimenziójú állapottereket és akciótereket, még akkor is, ha azok folyamatosak.