A pénzpiaci modellek és a pénzügyi elemzés világában a legnagyobb kihívást gyakran a különböző gazdasági tényezők, például a devizapiaci mozgások és a tőzsdék teljesítménye közötti kapcsolat felderítése jelenti. Ezen kapcsolatok megértése nem csupán a tőzsdei előrejelzések készítését könnyíti meg, hanem lehetőséget ad arra, hogy a kereskedők és elemzők jobban értékeljék a piacok viselkedését. Egy olyan modell, amely a JPY/USD árfolyam mozgásait a S&P 500 napi változásaival próbálja összekapcsolni, lehetőséget ad arra, hogy pontosabb előrejelzéseket készítsünk a deviza piacon.

Bár sokféle modellezési megközelítés létezik, a Bayesi-módszerek különösen vonzóak, mivel képesek kezelni a bizonytalanságot, és folyamatosan frissíthetik a valószínűségi eloszlásokat új adatok birtokában. A Bayesi-módszer egyik fontos jellemzője, hogy a paraméterek eloszlásának ismeretében képesek vagyunk egy "prior" (előzetes) eloszlás figyelembevételével frissíteni a modellt, amely segít a legjobb előrejelzés megtalálásában.

Képzeljünk el egy helyzetet, amelyben a következő napi JPY/USD mozgások és a S&P 500 visszaesések alapján szeretnénk előre jelezni a JPY erősödését. Tegyük fel, hogy az adataink a következőképpen alakulnak: U (fel), D (le vagy stagnálás). Az adatok a következő napi irányváltozásokat mutatják: U, D, U, U, D. Ehhez az adatfolyamhoz a következő S&P 500 napi hozamokat rendelhetjük: -0.05, 0.01, -0.01, -0.02, 0.03.

A modellünk egy Bernoulli-eloszlást alkalmaz, amely egy bináris valószínűségi változót (G) reprezentál, ahol G = 1 akkor, ha a JPY erősödik a dollárral szemben. Az adatok feltételezhetően függetlenek, de nem identikusak, tehát a valószínűségi eloszlás minden egyes megfigyeléshez más és más. A JPY erősödése és a tőzsdére vonatkozó napi hozamok közötti kapcsolatot a következő egyszerű valószínűségi modell írja le:

p(Gi=1ri,θ)={θu,ha ri>0θd,ha ri0p(G_i = 1 | r_i, \theta) =
\begin{cases} \theta_u, \quad \text{ha } r_i > 0 \\ \theta_d, \quad \text{ha } r_i \leq 0 \end{cases}

Ez a modell azt próbálja modellezni, hogy miként változik a valószínűsége a JPY erősödésének a dollárral szemben, figyelembe véve az S&P 500 napi hozamait.

A kérdés most az, hogy hogyan kell kiszámítani a modell teljes valószínűségi eloszlását, hogy megértsük, miként viselkednek az adatok a modellünkön belül. A valószínűségi modell az egyes napi mozgások figyelembevételével frissíti a paramétereket, hogy a legjobb becslést adja a JPY/USD árfolyam jövőbeli alakulására.

A modell egyszerűsítése érdekében feltételezzük, hogy az árfolyam mozgások és a hozamok közötti kapcsolat lineáris, de a valóságban a kapcsolat bonyolultabb lehet, és nem mindig áll fenn egy egyszerű korreláció. Ezért az adatok elemzésekor fontos figyelembe venni azokat az eseteket is, amikor a kapcsolat nem tisztán lineáris, és más, komplexebb modellek alkalmazása válik szükségessé.

Az ilyen típusú elemzéshez gyakran szükség van a Bayesi-frissítésre, hogy az új adatokat figyelembe véve folyamatosan pontosítani lehessen a becsléseket. A Bayesi-módszerek kulcsfontosságú előnye, hogy képesek kezelni az inkomplett adatok és a valószínűségi eloszlások miatti bizonytalanságot. Egy modell valószínűségi eloszlása változik az adatok és az új megfigyelések fényében, így az előrejelzéseink folyamatosan finomíthatóak.

Az ilyen típusú modellezéshez elengedhetetlen a megfelelő prior-disztribúciók kiválasztása és annak megértése, hogyan befolyásolják a modell teljesítményét. Az előzetes eloszlás nem csupán matematikai konstrukció, hanem a pénzügyi szakemberek szubjektív véleményének és piaci megértésének szoros tükröződése. Ha a választott prior nem megfelelő, az előrejelzéseink is félrevezethetők, ami komoly hibákat eredményezhet a kereskedési döntésekben.

Ezen kívül, a modellek összehasonlítása során figyelembe kell venni az adatmintát, és azt, hogy egyes modellek hogyan képesek kezelni a különböző típusú adatokat. Például egy olyan modell, amely figyelembe veszi a JPY/USD árfolyamának mozgását a S&P 500 napi hozamaival, nem feltétlenül fog ugyanúgy működni, mint egy másik, amely nem veszi figyelembe ezeket a kapcsolatokat. Ezért a modell kiválasztásakor érdemes további paraméterek, mint a prior eloszlások és az adattípusok alapos elemzését is végezni.

Végül, nem elég csupán a modell paramétereit és az adatok közötti kapcsolatokat modellezni, hanem fontos az is, hogy az elemzők tisztában legyenek a modellezés korlátaival és a bizonytalansággal, amely minden piaci előrejelzéshez kapcsolódik. A valószínűségi modellek és a Bayesi elméletek segíthetnek a bizonytalanság kezelésében, de a megfelelő kontextus és a dinamikus adatok folyamatos figyelemmel kísérése elengedhetetlen a pontos előrejelzésekhez.

Hogyan alkalmazzuk a Gaussian Process (GP) modelleket az európai opciók árazásában és görbéi meghatározásában?

A Heston-modell alkalmazása során, amely az egyik legismertebb stochasztikus volatilitású modell az opciók árazásában, a Gaussian Processek (GP) hatékony eszközként szolgálnak az opciók árának becslésére és a görbéi (delták, vegák stb.) meghatározására. Ezen módszer segítségével pontosabb előrejelzéseket készíthetünk a piaci helyzetekről, mivel a GP modellek képesek kezelni a komplex, nemlineáris kapcsolatokat, amelyek gyakran előfordulnak az opciók árainak változásaiban.

A GP alkalmazása a Heston-modell árazásában különösen hasznos, mivel lehetőséget ad arra, hogy egyszerre dolgozzunk több paraméterrel, például a részvényárfolyammal (S) és a volatilitással (V), miközben a lejárati idő változik. Az ilyen típusú modellezésnél különös figyelmet kell fordítani az Euler-módszer alkalmazására, amely biztosítja a numerikus stabilitást a szimulációk során, különösen akkor, ha nagy számú szimulált adatpontot használunk.

Az adatok gridozása, amelyet 30x30-as vagy 40x40-es hálózatokban végzünk, lehetővé teszi számunkra, hogy különböző lejárati időkkel rendelkező opciók árait modellezzük és becsléseket készítsünk az ismeretlen területeken is. A Gaussian Processek esetében előny, hogy képesek extrapolálni az ismeretlen területekre, azaz képesek olyan árakat becsülni, amelyek túlmutatnak a szimulált adatok tartományán. Ez különösen fontos akkor, ha olyan opciókat modellezünk, amelyek mélyen pénzben vagy kívül esnek az aktuális piaci árfolyamokhoz képest.

Extrapoláció során a kernel-kombinációk kulcsfontosságú szerepet játszanak. Például a kombinált lineáris és sztochasztikus kernel használata biztosítja, hogy az előrejelzések lineárisak maradjanak, miközben a nemlineáris viselkedést is figyelembe veszik. Ezzel a megközelítéssel az opciók ára a piacok szélén, vagyis az extrém piaci környezetekben is megbízható előrejelzéseket adhatunk.

Fontos hangsúlyozni, hogy a GP modellek nemcsak az opciók árazására, hanem az opciók görbéinek (például delta, vega) meghatározására is használhatók. A görbék, amelyek az opció árával kapcsolatos érzékenységeket mutatják, hasznosak a kockázatkezelésben és a hedging stratégiák kialakításában. A GP segítségével az analitikus deriváltak könnyen meghatározhatók, mivel a modell maga képes az első és második rendű érzékenységek kiszámítására, amelyeket más módszerekkel nem lenne olyan egyszerű számolni. A görbék becslésénél különösen fontos, hogy a modellezés során ne csak az opció árat, hanem annak görbéit is figyelembe vegyük, hogy a piaci helyzetek pontosan tükröződjenek a modellekben.

A GP-k működése viszonylag egyszerűen magyarázható: a modell minden egyes adatpontot egy „kernel függvénnyel” illeszt, amely meghatározza az adatok közötti korrelációt. A kernel paraméterek optimalizálása lehetővé teszi a legpontosabb előrejelzések készítését, míg a modell által előállított szórás azt jelzi, hogy mennyire biztosak vagyunk az előrejelzéseinkben. Minél nagyobb távolságra esik egy tesztpont az oktatás során használt adatpontoktól, annál nagyobb bizonytalansággal kell számolnunk.

A GP modellezésének egyik legnagyobb előnye, hogy nem szükséges rögzített rácsokon dolgozni, hanem a számításokat a szimulált referenciapontok alapján végezhetjük el. Az így elért előrejelzések közelíthetik a tényleges opció árakat, és a numerikus hibák minimalizálhatók a megfelelő adatpontok kiválasztásával. A rács nélküli megközelítés lehetővé teszi, hogy az adatok dimenzióját fokozatosan növeljük, így a modell egyre pontosabbá válik.

A GP alkalmazásának másik érdekes aspektusa, hogy képes kezelni a magas dimenziójú adatokat is. A nagyobb számú paraméterek, mint például a részvény volatilitása, a kamatláb és az egyéb piac-specifikus tényezők figyelembevételével a GP képes az összes tényezőt integrálni egyetlen modellel. Ez különösen akkor fontos, ha a piaci adatok gyorsan változnak, és a modelleknek képesnek kell lenniük az adaptációra.

Az opciók árának modellezésénél tehát a Gaussian Processek nemcsak a hagyományos statisztikai módszerek helyettesítésére képesek, hanem azok kiegészítésére is, különösen a bonyolult, nemlineáris piaci környezetekben, ahol más modellek nem mindig adnak pontos előrejelzéseket. A GP-k ezen túlmenően képesek a piacra vonatkozóan gyors és pontos válaszokat adni, amelyek segíthetik a pénzügyi szakembereket a kockázatkezelés és az optimális árazás meghatározásában.

Hogyan értelmezzük a neurális hálózatokat? – A hálózatok fontosságának rangsorolása és az értelmezhetőség

Miután a neurális hálózatokat betanítottuk, számos fontos kérdés merül fel a modell paramétereinek értelmezésével kapcsolatban. Ez az egyik legfontosabb kérdés a gyakorlati alkalmazásokban, különösen akkor, amikor a szakemberek eldöntik, hogy a neurális hálózatokat válasszák más gépi tanulási és statisztikai módszerek helyett a tényező realizációk becslésére, még akkor is, ha ezek utóbbiak előrejelzési pontossága gyengébb. Ebben a fejezetben egy olyan módszert mutatunk be, amely minimális korlátozásokat alkalmaz a neurális hálózatok tervezésére és segít megérteni a neurális hálózatok működését, például a bemeneti változók fontosságának rangsorolásával.

Az értelmezhetőségi technikák alkalmazása lehetővé teszi, hogy jobban megértsük, hogyan hoz döntéseket egy hálózat, így a modellek előrejelzései nem tűnnek "fekete doboznak", amelyben a belső működés rejtve marad. Az egyik legismertebb technika, a Partial Dependence Plots (PDP), amelyet Greenwell és társai (2018) dolgoztak ki, lehetőséget ad arra, hogy megértsük, hogyan befolyásolják a bemeneti változók az előrejelzést. Emellett léteznek egyéb megközelítések is, amelyek például a rejtett kimeneti kapcsolódási súlyokat osztják szét a bemeneti neuronok között, vagy lineáris kifejezéseken alapuló súlyok segítségével mérik a bemeneti változók fontosságát.

A hálózatok magyarázhatósága nem csupán matematikai technika, hanem praktikus szükséglet is, mivel segít a fejlesztőknek és a kutatóknak abban, hogy megértsék, miért és hogyan reagálnak a modellek a bemenetekre. A bonyolult modellek, különösen a mély tanulási rendszerek esetén, gyakran szükségessé válik, hogy pontosan tudjuk, mely bemeneti tényezők játszanak szerepet a döntési mechanizmusokban, és hogyan befolyásolják azok a kimeneti eredményeket. A feedforward hálózatok értelmezéséhez tehát olyan technikákra van szükség, amelyek képesek rangsorolni a bemeneti jellemzők fontosságát.

A model sensitivities (modellérzékenység) egy olyan megközelítés, amely segít megérteni a bemeneti változók fontosságát. A modell érzékenységét a hálózat kimeneteihez viszonyított bemeneti változók változásaiként értelmezhetjük. Ez az analitikus megközelítés különösen hasznos lehet, amikor a gépi tanulás és a lineáris regresszió teljesítményét szeretnénk összehasonlítani, mivel lehetővé teszi, hogy empirikusan megvizsgáljuk, hogyan viselkednek a neurális hálózatok egy lineáris modell adataival.

A modellérzékenység fogalmát nem szabad összetéveszteni azzal, hogy a hálózat nem képes lineáris adatokat megtanulni, mivel minden nem-lineáris statisztikai modell képes reprodukálni egy statisztikai lineáris modellt a megfelelő paraméterek kiválasztásával. Az a fontos, hogy megértsük, hogy a neurális hálózatok nem mindig szükséges, hogy non-lineárisak legyenek ahhoz, hogy helyesen kezeljék a lineáris adatokat, ha a paramétereket megfelelően választjuk meg. Így az analitikai értelmezhetőség biztosítja, hogy a mély neurális hálózatok valóban képesek legyenek pontos előrejelzéseket adni, és megértsük, hogyan működnek azok a különböző típusú adatállományokkal.

A hálózatok érzékenységeinek értékeléséhez elengedhetetlen, hogy a választott függvények, mint például a kimeneti függvények, folyamatosak és differenciálhatóak legyenek minden pontban. Ez biztosítja, hogy az analitikai értelmezés során használt deriváltak alkalmazhatók és megbízhatóak lesznek. Egy másik fontos szempont a Lipschitz-állandó alkalmazása, amely biztosítja, hogy a modell viselkedése stabil és az érzékenységek jól definiáltak maradnak a bemenetek változásával.

A neurális hálózatok, különösen a mélyebb hálózatok esetén, különös figyelmet érdemelnek a bemeneti változók közötti kölcsönhatások és az aktivációs függvények hatása, amelyek döntően befolyásolják az előrejelzés pontosságát és az értelmezhetőséget. Az értelmezhetőségi elemzés során gyakran figyelembe kell venni, hogy hogyan hatnak a modellbe integrált tényezők, valamint hogy milyen mértékben befolyásolják a különböző típusú neuronális rétegek az eredményeket. A technikák fejlődésével és a mély tanulás alkalmazásával egyre fontosabbá válik, hogy a neurális hálózatok eredményei érthetőek legyenek, így segítve a felhasználókat abban, hogy megalapozott döntéseket hozzanak.

Hogyan értelmezzük az autokorrelációt és a modellparamétereket időbeli sorozatok elemzésében?

Az autokorrelációs függvény a statisztikai modellek egyik alapvető eszköze, amely az időbeli sorozatok közötti kapcsolatokat vizsgálja. Az AR(1) modell egy egyszerű autoregresszív modell, amely a következő formát ölti:
yt=ϕyt1+εt,y_t = \phi y_{t-1} + \varepsilon_t,

ahol ϕ\phi a paraméter, amely meghatározza a sorozat előző értéke és az aktuális érték közötti kapcsolatot, míg εt\varepsilon_t a fehér zaj, amelyet gyakran normál eloszlással modelleznek. A modell lényege, hogy a jövőbeli értékek csak az előző értéktől és a zajtól függnek, míg az előző értékek közötti korrelációk az autokorrelációs függvényen keresztül is megfigyelhetők.

Az AR(1) folyamatot tekintve a lag-2 (második időbeli késleltetés) részleges autokorrelációja a következőképpen alakul:
τ~2=τ12τ1211τ12=0,\tilde{\tau}_2 = \tau_1^2 - \tau_1^2 \cdot \frac{1}{1 - \tau_1^2} = 0,

ami azt jelzi, hogy a lag-2 autokorrelációs érték nulla, ha a sorozat csak az első rendű autoregresszív kapcsolatot tartalmazza. Ez a tulajdonság minden olyan időbeli késleltetésre igaz, amely meghaladja az AR folyamat rendjét. Ezt egy másik perspektívából is megérthetjük, mégpedig a részleges autokovarianciákon keresztül.

Az AR(1) folyamat lag-2 részleges autokovarianciáját a következőképpen definiáljuk:
γ~2=E[yty^t,yt2y^t2],\tilde{\gamma}_2 = \mathbb{E}[y_t - \hat{y}_t, y_{t-2} - \hat{y}_{t-2}],

ahol y^t\hat{y}_t a becsült érték, amelyet az előző időbeli értékek ismeretében kalkulálunk. Az orthogonális projektálás tulajdonságai alapján az AR(1) folyamat esetén az autokovariancia értéke nullává válik a második időbeli késleltetésnél, amit az előző kifejezés egyértelműen mutat. A lag-1 részleges autokovariancia esetén azonban:
γ~1=E[ytμ,yt1μ]=γ1=ϕγ0,\tilde{\gamma}_1 = \mathbb{E}[y_t - \mu, y_{t-1} - \mu] = \gamma_1 = \phi \gamma_0,
ami azt jelenti, hogy a lag-1 autokovariancia egyenesen arányos az AR(1) modell paraméterével és az alapvető autokovarianciával, γ0\gamma_0.

A maximális valószínűségi becslés (Maximum Likelihood Estimation, MLE) a modellezési eljárások egyik alapvető technikája. Az AR(1) modell pontos valószínűsége akkor alkalmazható, ha a szenzoradatok függetlenek a paraméterektől. Ebben az esetben a valószínűségi függvény a következőképpen adható meg:

L(y,x;ϕ,σn2)=t=1TfYtXt(ytxt;ϕ,σn).L(y, x; \phi, \sigma^2_n) = \prod_{t=1}^T f_{Y_t | X_t}(y_t | x_t; \phi, \sigma_n).
Azonban sok esetben a mintaadatok eloszlásának és a paraméterek közötti függetlenség feltételezését el kell vetni. Például, ha a zaj varianciája nem ismert, a modellben való alkalmazásával a becslések pontosabbak lehetnek, de az eljárás bonyolultabbá válik. Az ilyen típusú modellezésben a valószínűségi függvények egyes elemeit, például a fY1(y1)f_{Y_1}(y_1) és a fYtYt1f_{Y_t | Y_{t-1}} összefüggéseit kell kezelni.

Az autoregresszív modellek esetében előfordulhat heteroszkedaszticitás, amikor a zaj varianciája nem állandó, hanem az időben változik. Ilyenkor egy heteroszkedasztikus AR(p) modellt alkalmazhatunk, ahol a folyamatok az idő függvényében eltérő varianciájú zajokkal dolgoznak. A heteroszkedasztikus modellekhez kapcsolódó becslési eljárások bonyolultabbak, és két lépést tartalmaznak: először az autonóm hibák becslését, majd a modellparaméterek becslését követhetjük. A heteroszkedasztikus modellek alkalmazása különösen fontos pénzügyi elemzésekben, ahol a piaci volatilitás az idő előrehaladtával változik.

A GARCH (Generalized Autoregressive Conditional Heteroscedastic) modellek az autoregresszív modellek egyik fejlődése, amelyek a változó varianciájú folyamatok kezelésére szolgálnak. A GARCH(p, q) modellben a kondicionált variancia az ARMA(p, q) modell segítségével van meghatározva, amely p késleltetett kondicionált varianciát és q késleltetett négyzetes hibát tartalmaz. A modell alapvetően a volatilitás előrejelzésére szolgál, és jelentős szerepet játszik a pénzügyi elemzésekben és a kockázatkezelésben. A GARCH modellek alkalmazása különösen fontos a tőzsdei előrejelzések és a piaci volatilitás elemzése során.

A GARCH modellek előnye, hogy képesek explicit kapcsolatot felállítani a múltbéli volatilitások és a jövőbeli volatilitás között, ami rendkívül hasznos lehet a kockázatkezelési és a kereskedési stratégiák kialakításában. A modellek stabilitásához szükséges egy kritikus feltétel, miszerint az összes paramétert úgy kell beállítani, hogy azok az adott korlátozások mellett érvényesek maradjanak.

A különböző autoregresszív és mozgó átlagos modellek, valamint a heteroszkedasztikus modellek kombinációja lehetővé teszi, hogy komplex, a valóságot pontosabban tükröző modelleket alkossunk, amelyek képesek kezelni az időbeli adatokat és előrejelzéseket készíteni, figyelembe véve a zaj varianciájának időbeli változásait és a jövőbeli trendeket. Az ilyen modellek alkalmazása különösen fontos a pénzügyi piacok elemzésében és a kockázatkezelésben, ahol az előrejelzések és a volatilitás pontos kezelése kritikus fontosságú a sikeres stratégia kialakításában.

Hogyan alkalmazzuk a megerősítéses tanulást a pénzügyi modellezésben?

A cselekvések mindig eredmények, és azok a célok elérése érdekében optimalizáltan hajtódnak végre. A célzott cselekvés optimális végrehajtása matematikailag úgy van formulázva, mint egy adott célfüggvény maximalizálásának problémája. Az ilyen típusú problémák a gépi tanulás azon területéhez tartoznak, amelyet megerősítéses tanulásnak (reinforcement learning, RL) nevezünk. Ez a gépi tanulás területe rendkívül fontos a kereskedelemben és a befektetési menedzsmentben, mivel a pénzügyi döntéshozatalban is kiemelt szerepe van.

A megerősítéses tanulás, akárcsak a felügyelt és felügyelet nélküli tanulás, egy olyan probléma, ahol az optimalizálás célja az, hogy bemeneteket (inputokat) valamilyen kimenetekre (outputokra) képezzenek le, figyelembe véve a megfelelő optimális kritériumot. Azonban három alapvető különbség is létezik a megerősítéses tanulás és a többi tanulási módszer között.

Az első különbség a tanító szerepe. Míg a felügyelt tanulás esetében a tanítónak teljes információval kell rendelkeznie arról, hogy milyen kimenetek tartoznak a bemenetekhez, és ezeket az információkat az algoritmus általánosítja, addig a megerősítéses tanulásban a tanító nem ad teljes választ a helyes cselekvésre. A tanító csupán részleges visszajelzést biztosít az ügynök számára a végrehajtott cselekvések alapján, ami egyfajta jutalomként jelenik meg. A jutalom numerikus értékekkel van ellátva, és minél magasabb a jutalom egy adott cselekvéshez, annál valószínűbb, hogy ez a cselekvés jobb választás, mint mások. Azonban nincs explicit információ arról, hogy mi a legjobb vagy a "helyes" cselekvés a maximális jutalom elérésére. Ez a részleges visszajelzés és az ügynök célja, hogy maximalizálja az összesített jutalmat az időbeli lépések során.

A második alapvető különbség a visszajelzési hurkól jelenléte, amely a megerősítéses tanulásban egy körforgást hoz létre az ügynök cselekvései és az őt körülvevő környezet állapotai között. Ez azt jelenti, hogy amikor az ügynök egy adott környezet állapotában cselekszik, a cselekvés változást okozhat a környezet állapotában, amely viszont visszahat az ügynökre. Mivel a megerősítéses tanulási feladatok gyakran összefüggnek a szekvenciális döntéshozatallal, ahol a környezet folyamatosan változik, a cselekvések hatással lehetnek arra, hogy az ügynök a jövőben milyen döntéseket hoz. Ezért a megerősítéses tanulás általában magában foglalja a tervezést, hiszen az ügynöknek nem csupán a cselekvés következményeit kell figyelembe vennie, hanem azt is, hogy a környezet hogyan változik az adott cselekvés hatására. Ez az úgynevezett visszajelzési hurok, és olyan elem, amely nem található meg sem a felügyelt, sem a felügyelet nélküli tanulásban.

A harmadik különbség az, hogy a maximálisan elérhető jutalom nem ismert előre, és még akkor is, ha egy ügynök magas jutalmat kap egy adott cselekvés végrehajtásáért, mindig fennáll annak a lehetősége, hogy egy másik cselekvés ugyanebben az állapotban magasabb jutalmat eredményezhet. Ezért az ügynöknek szembesülnie kell a felfedezés (exploration) és a kihasználás (exploitation) dilemmájával. A felfedezés során az ügynök új cselekvéseket próbál ki, hogy megtalálja a lehető legnagyobb jutalom elérésének módját, míg a kihasználás során az ügynök a már eredményesnek bizonyult cselekvéseket ismétli meg. Az ügynöknek tehát egyensúlyoznia kell a kockázatos felfedezés és a biztos eredményt hozó kihasználás között.

Ezek az elemek azonban csak az úgynevezett "valós idejű" vagy online megerősítéses tanulás esetén relevánsak, amikor az ügynök hozzáfér egy fizikai vagy szimulált környezethez, és folyamatosan kísérletezhet különböző cselekvésekkel. Ezzel szemben a batch-módban, vagyis offline megerősítéses tanulásnál, az ügynök nem fér hozzá közvetlenül a környezethez. Ilyen esetben csupán egy adatbázis áll rendelkezésre, amely az ügynök vagy más ügynökök korábbi cselekvéseinek és azok következményeinek feljegyzéseit tartalmazza. A batch-módban tehát nem létezik felfedezés, mivel az ügynök nem próbálhat ki új cselekvéseket, hanem a rendelkezésre álló történeti adatokat kell elemeznie a legjobb lehetséges döntés meghozatalához.

Ezek az alapvető különbségek rendkívül fontosak a pénzügyi alkalmazások szempontjából. A pénzügyi döntéshozatali modellekben az ügynökök gyakran szembesülnek a felfedezés és kihasználás dilemmájával, ahol a cselekvések (például kereskedési döntések) folyamatosan változtatják a piaci környezetet. Továbbá, a pénzügyi piacok gyakran véletlenszerűen változnak, így az ügynököknek folyamatosan előre kell jelezniük, hogyan alakulnak a jövőbeli környezetek, miközben maximalizálni próbálják a hosszú távú nyereséget. A megerősítéses tanulás tehát kulcsfontosságú a pénzügyi modellek fejlesztésében, különösen azokban az alkalmazásokban, ahol az ügynökök döntései közvetlenül befolyásolják a piaci viselkedést.