A szigorú optimális viselkedési feltételezés lazítása érdekében, a strukturális modellek gyakran véletlenszerű összetevőt adnak az egy lépéses vásárlói hasznossághoz, amelyet néha "felhasználói sokknak" neveznek. Ennek az eljárásnak egy példája található Xu et al. (2015) munkájában, ahol mobil adatcsomagok vásárlóinak jutalomfüggvényeit próbálták megbecsülni. Bár ez lehetővé teszi az al-optimális pályák megjelenését, az ilyen megközelítések optimalizálást igényelnek a jutalomparaméterek szimulációs eljárás használatával, ahol a nem megfigyelt és szimulált "felhasználói sokkok" hozzáadódnak a paraméterek becsléséhez. A MaxEnt IRL ezzel szemben egy alternatív, számításilag hatékonyabb módot kínál a lehetséges al-optimalitás kezelésére, mégpedig azzal, hogy sztochasztikus politikákat alkalmaz determinisztikus politikák helyett. Ez a megközelítés lehetővé teszi egy bizonyos mértékű toleranciát az olyan alkalmi, nem túlzott eltérések iránt, amelyek a modellt optimális paraméterekkel írják le, mint ritka fluktuációk.
A MaxEnt IRL egyik alapvető előnye, hogy képes figyelembe venni az esetleges al-optimális viselkedést, anélkül hogy szükség lenne a hagyományos Monte Carlo szimulációk használatára, amelyek a felhasználói sokk eloszlások becslésére szolgálnak. Az alábbiakban bemutatunk egy egyszerű paraméteres specifikációt a MaxEnt IRL módszerhez, amelyet ebben a fejezetben vezettünk be. E módszer alkalmazása lehetővé teszi a könnyen implementálható számításokat, összehasonlítva a strukturális modellek Monte Carlo alapú módszereivel.
A vásárlói hasznosságot tekintve formálisan egy olyan vásárlót képzelhetünk el, aki egy egy szolgáltatást tartalmazó csomagot vásárolt, havi díjjal F, kezdeti kvótával q0, és egy egységnyi fogyasztásra vonatkozó díjat p fizet, ha túllépi a havi kvótát. A vásárló hasznosságát a következőképpen definiálhatjuk egyetlen lépésre (t = 0, 1, …, T - 1), ahol T a számlázási időszak hossza (pl. egy hónap):
Itt a napi fogyasztás, a napi kvóta, a számlázási ciklus hátralévő napjainak száma, és az egyes paraméterek különböző összetevőket képviselnek a vásárlói hasznosságban. Az utolsó tag egy jutalmat ad a nullás fogyasztásért, míg a középértékek alapján minden más paraméter egy meghatározott viselkedést tükröz, például a fogyasztás és kvóta közötti eltéréseket.
A modell kalibrálása a paraméterek, becsléséből áll, figyelembe véve a vásárló fogyasztási történetét. Fontos, hogy az optimális paraméterek a történelem alapján meghatározhatóak, ami lehetővé teszi az analitikai számítást és az egyszerű, gyors eredmények elérését.
A struktúrált modellek gyakran próbálnak összhangba hozni a determinisztikus politikákat és az al-optimális viselkedést egy véletlenszerű "felhasználói sokk" hozzáadásával a vásárlói hasznossághoz. A MaxEnt IRL azonban ezen a téren is előnyös, mivel nem igényel véletlenszerű sokkokat a hasznosság függvényében, hanem a meglévő adatok valószínűségi eloszlásokat használ a lehetséges eltérések kezelésére.
A MaxEnt IRL tehát nemcsak a szigorúan optimális viselkedés kezelésére kínál megoldást, hanem a paraméterek becslése szempontjából is lényegesen hatékonyabb módszert kínál, mint a Monte Carlo alapú megoldások. A maximális valószínűségszerűség (MLE) alkalmazásával egyszerű és gyors konvex optimalizálást végezhetünk a paraméterek becslésére, amelyhez nem szükséges a bonyolult szimulációk futtatása.
A modell további bővítése érdekében több alapfunkció hozzáadása is lehetséges anélkül, hogy az alapvető módszertan megváltozna. A MaxEnt IRL egy olyan hatékony módszert kínál, amely a vásárlói viselkedés modellezésében, illetve a vásárlói preferenciák előrejelzésében is komoly előnyökkel rendelkezik.
Ezen kívül érdemes kiemelni, hogy a modell egyes változtatásai, mint például a relatív entrópia IRL alkalmazása, szintén növelhetik az alkalmazott eljárások hatékonyságát. Az ilyen típusú megközelítések során a referenciaeloszlás alkalmazása mellett helyi normalizációs tényezők használata lehetővé teszi a nagyobb és folyamatos állapot-akció területek kezelését is. Bár a MaxEnt IRL módszer az elméleti szempontból precíz megoldásokkal rendelkezik, gyakorlati alkalmazásai esetén szükség lehet az optimális paraméterek gyors meghatározására és a folyamatos adatok integrálására is.
Hogyan formálódik a piaci dinamika a korlátozott racionalitás és az inverz optimalizálás révén?
A Black-Litterman (BL) modell a portfólió-optimalizálás egyik legismertebb megközelítése, amely a Markowitz-féle egyperiódusú optimális portfólió-elméletet fordítja meg (Black és Litterman, 1991). A Markowitz-modell meghatározza az optimális portfóliót az adott befektető várható hozamaival és a részvényhozamok jövőbeli kovarianciáival kapcsolatos vélemények alapján, miközben maximalizálja az alábbi hasznossági függvényt: , ahol λ a kockázatkerülési paraméter. Ebből következően a várható hozamok az előrejelző jelek értékeitől függenek. Ezzel szemben a BL-modell bemeneti adatként a piaci optimális portfóliót veszi, amelyet a Markowitz hasznosság maximalizálásával szereztek meg, és abból következtet a piac által implikált várható hozamokra. A piac által implikált várakozások aztán közvetlenül a közös előrejelző jelekre vonatkozó piac által implikált véleményekké fordítódnak. A BL-modell lehetőséget ad arra is, hogy a felhasználó azonosítsa a befektetők magánvéleményeinek potenciális hatását a portfólió teljesítményére.
Bertsimas és társai (2012) explicit módon újraformálták a BL-modellt, mint inverz optimalizációs problémát. Ez egy inverz optimalizálás perspektívát kínál, bár a BL-modell továbbra is nem dinamikus, egyperiódusú formuláció marad. Ez problémát jelenthet, ha olyan jelek vizsgálatára van szükség, amelyek dinamikája több kereskedési időszakon (vagy akár sok időszakon) keresztül nyúlik. Ilyen hatások kezelése érdekében szükség van egy többperiódusos (dinamikus) modellre. Az IRL alapú tanulás, amely az állapot-akció sorozatokból tanul, kényelmes keretet biztosít a dinamikus, ügynök-alapú kiterjesztéshez a Bertsimas és társai (2012) által alkalmazott inverz optimalizálási BL megközelítéshez. Amikor egyetlen ügynök formulációt alkalmazunk az IRL megközelítésben a piaci dinamikák modellezésére, fontos tisztázni ennek az ügynöknek a "racionalitás mértékét". A hagyományos IRL vagy inverz sztochasztikus irányítási modellek, amelyek teljesen racionális ügynökök koncepcióján alapulnak, nem biztos, hogy megfelelőek az IRL problémák megoldására. Valójában, mivel a piaci árakat sok egyéni befektető cselekedetei befolyásolják, akik mind más-más befektetési célokat követhetnek, egy olyan ügynök, aki ezen egyéni ügynökök összegzésével jön létre, nem feltétlenül rendelkezik olyan hasznossági (jutalom) függvénnyel, amely egy fix típusú racionális viselkedést tükrözne. A jobb feltételezés az lenne, ha egy kollektív ügynököt alkalmaznánk, aki nem teljesen racionális, hanem csak korlátozottan racionális. Egy korlátozottan racionális ügynök nem feltétlenül úgy cselekszik, hogy növelje a teljes összesített jutalmát az akció-érték függvény alapján. Ehelyett a célfüggvénye egy adott paraméteres jutalomfüggvényből tevődik össze, amelyet egy információs költség (11.23) büntet, amely a politika π0-ból való frissítés költségeit képviseli. A jutalomfüggvény és az információs költség közötti relatív súlyt egy "inverz hőmérséklet" paraméter β szabályozza, így a β → ∞ határérték a teljesen racionális viselkedést, míg a β → 0 határérték a maximálisan irracionális viselkedést jelzi, amikor a piacon alkalmazott ügynök ragaszkodik a kezdeti politikájához, és nem alkalmazkodik az új információkhoz.
A pénzügyi ügynökök korlátozott racionalitásának fogalmát először Simon (1956) vetette fel, amikor a hagyományos racionális befektetői modellek túllépésére tett javaslatot, hogy jobban magyarázza a valós világ ügynökeinek viselkedését. Az ilyen modellek a Von Neumann-Morgenstern elméletre építenek, és azt feltételezik, hogy a piaci ügynökök teljesen racionálisak, mindegyikük maximalizál egy jól meghatározott hasznossági (jutalom) függvényt. Ha feltételezzük, hogy minden ügynök ugyanazzal a hasznossági függvénnyel rendelkezik, akkor egy olyan modellhez jutunk, ahol a piaci optimális portfóliót egyetlen, teljesen racionális ügynök irányítja. A piaci tőkepiac modellezésében (CAPM) egy ilyen ügynök hasznossági függvénye a Markowitz-féle kvadratikus hasznosság. Azonban a piacon élő ügynökök tökéletes homogenitásának feltételezése túl ideális lehet, mivel a valódi pénzügyi piacokon gyakran nagyon heterogén típusú befektetők jelennek meg. Egy formális megközelítés szükséges tehát a tökéletes racionalitástól való eltérések mérésére egyetlen ügynöki piaci dinamikai modellben.
A korlátozott racionalitású ügynökök modellezésére egy kényelmes számítási keretet Ortega és Braun (2013) javasolták, akik azt sugallták, hogy az információs költségeket (11.23) használják a különbségek kvantitatív mérésére a tisztán racionális viselkedéshez képest. Ahogyan Ortega és társai (2015) tovább részletezték, ez a mérőszám azt számolja, hogy egy ügynök hány bitnyi információt igényel a politikájának frissítéséhez egy előre meghatározott politikából (π0). Miután meghatároztuk a piacon belüli ügynököt, annak cselekedetei közvetlenül nem megfigyelhetők, mivel az ügynök az egész piacot képviseli. Az ilyen ügynök nem rendelkezik kereskedési ellenféllel — saját magával kereskedik, amit matematikailag önálló tanulásként lehet leírni, amelyet a jutalomfüggvénye vezérel. Az ügynök cselekedetei végső soron a piaci portfólió részleges irányítását jelentik. Bár az ilyen piaci ügynök cselekedetei közvetlenül nem megfigyelhetők, hatásuk mégis kifejeződik a piaci árakban egy ár-hatási mechanizmuson keresztül. A piaci ügynök hatásait ár-hatás révén figyelhetjük meg.
Miért fontos a demonstrációkból való tanulás és hogyan alkalmazható a pénzügyi szektorban?
Hogyan működik az Elastic Agent és a Beats integrációja az adatok gyűjtésében és kezelésében?
Miért fontos megérteni a mérési hibák típusait és azok hatásait?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский