A statisztikai modellezés egyik alapvető eleme a sorozatok viselkedésének megértése. Az autoregresszív (AR) folyamatok, amelyek a múltbeli megfigyelések lineáris kombinációján alapulnak, lehetőséget adnak arra, hogy a jövőbeli értékek előrejelzésekor figyelembe vegyük az előző értékeket, miközben a fehér zaj (fehér zaj: i.i.d. hibák) torzítja az adatokat. A modellek fejlesztése során az autokorreláció és az autokovariancia szerepe kulcsfontosságú, mivel ezek segítenek meghatározni, hogy a múltbeli információk hogyan hatnak a jövőbeli adatokra.

Autokorreláció és autokovariancia

Az autokorreláció, τj, a j-edik autokovariancia és a variancia hányadosa, amely kifejezi az időbeli összefüggést egy változó különböző időpontokban mért értékei között. A sztochasztikus folyamatokban az autokovarianciák nem függnek az időpontoktól, csupán az időpontok közötti intervallumtól, tehát γj = γ−j: ez azt jelenti, hogy az autokovarianciák szimmetrikusan viselkednek a megfigyelés ideje szerint. Ezen túlmenően az autokorrelációk jellemzőek az adatok függőségi struktúrájára, és segítségükkel könnyebben modellezhetők a véletlen folyamatok.

Fehér zaj

A fehér zaj, εt, egy független, azonos eloszlású (i.i.d.) hiba, amely három alapvető feltételt teljesít: az elvárt értéke 0, a szórása konstans, és a különböző időpontok közötti értékek függetlenek. A fehér zaj gyakran "zavarként" vagy "innovációként" jelenik meg a pénzügyi időszakos modellezésben, és alapvetően befolyásolja a sorozatok viselkedését, amikor az adatok valószínűségi diszkrét változókat tartalmaznak.

Autoregresszív modellek

Az autoregresszív (AR) modellek, mint az AR(p) folyamatok, azok a paraméteres idősoros modellek, amelyek a változót (yt) a p korábbi megfigyelés lineáris kombinációjaként és fehér zajként írják le. Egy p-edik rendű autoregresszív folyamat így van kifejezve:

yt=μ+i=1pϕiyti+ϵty_t = \mu + \sum_{i=1}^{p} \phi_i y_{t-i} + \epsilon_t

ahol μ a drift, φi a modellezett paraméterek, p pedig a modell rendje. Az AR(p) modellek rendjét az adatok statisztikai tulajdonságai, például a kovariancia állandósága határozza meg. Fontos, hogy az adatok gyenge kovarianciával állandóak legyenek a modell paramétereinek meghatározásakor.

Stacionaritás és stabilitás

A stacionaritás egy alapvető feltétel az AR(p) modellek alkalmazásában. Ha a folyamat nem stacionárius, a múltbeli értékek hatása az idő előrehaladtával változó lehet. A stabilitás az AR(p) folyamatok egyik legfontosabb jellemzője, mivel meghatározza, hogy a múltbeli zavarok hogyan befolyásolják a jelenlegi megfigyeléseket. Ha a φ paraméterek abszolút értéke kisebb, mint 1, akkor a folyamat stabil. Az instabilis folyamatoknál a zavarok hatása növekszik az idővel.

A sztochasztikus modellek és az impulzusválasz-funkciók

A sztochasztikus modellek és az impulzusválasz-funkciók (IRF) összekapcsolásával jobban megérthetjük, hogyan hatnak a múltbeli zavarok a jövőbeli értékekre. Az impulzusválasz-funkciók segítenek vizualizálni a múltbeli zavarok hatását a modell stabilitásának függvényében. Az AR(p) modellben az IRF geometrikusan csökken, ha a modell stabil, és a múltbeli zavarok hatása fokozatosan elhalványul.

A részleges autokorrelációk szerepe

A részleges autokorrelációk, amelyek az autoregresszív modellek sajátos jellemzői, kulcsfontosságúak az AR(p) modell rendjének meghatározásában. Mivel minden részleges autokorreláció a különböző időbeli késleltetések közötti függőséget méri, anélkül, hogy figyelembe venné a közbenső késleltetéseket, ezek segítenek az optimális p értékének meghatározásában. Az úgynevezett Yule-Walker egyenletek a részleges autokorrelációkat és az autokorrelációkat összekapcsolják, lehetővé téve a modell paramétereinek pontos meghatározását.

A részleges autokorrelációk grafikus ábrázolása (például a részleges korrelációs diagram) segíthet megérteni, hogy a múltbeli megfigyelések hogyan alakítják a jelenlegi adatokat, és hogyan csökken a hatásuk az idő múlásával.

A statisztikai tesztek és a jellemzők alapján a modellek rendjének és stabilitásának meghatározása elengedhetetlen a sikeres időbeli előrejelzéshez. A gyakorlatban az autoregresszív modellek alkalmazása segíthet pontosabb előrejelzések készítésében, legyen szó pénzügyi piacok, gazdasági mutatók vagy más sztochasztikus folyamatok elemzéséről. A megfelelő modell kiválasztása és a stabilitás ellenőrzése lehetővé teszi, hogy a sztochasztikus modellek megbízható eredményeket adjanak a jövőbeli adatok előrejelzésére.

Hogyan működik a Q-learning mint sztochasztikus közelítés a Bellman-egyenlet megoldására?

A Q-learning módszert érdemes a Robbins–Monro-féle sztochasztikus közelítések keretében értelmezni, melyek célja az ismeretlen várható értékek iteratív becslése anélkül, hogy az összes minta előre rendelkezésre állna. E megközelítés nemcsak elméleti szilárdságot ad a TD-alapú frissítési szabályoknak, hanem lehetőséget teremt a megfigyelések batch-alapú feldolgozására is, amikor az adatokat nem egyesével, hanem halmazokban dolgozzuk fel.

A Robbins–Monro algoritmus olyan sztochasztikus iteráció, amely biztosítja, hogy a becsült érték – megfelelő tanulási rátával – majdnem biztosan konvergáljon az igazi várható értékhez. Ennek iteratív alakja:
x̂ₖ₊₁ = (1 − αₖ)x̂ₖ + αₖxₖ,
ahol αₖ a tanulási ráta az adott lépésnél. A konvergencia feltétele, hogy ∑αₖ divergens, míg ∑αₖ² konvergens legyen. Ez a tanulási ráta-választás finomhangolását igényli, és az adott problémától erősen függ.

A Q-learning frissítési szabálya ezen elven alapul:
Qₖ₊₁(s, a) = (1 − αₖ)Qₖ(s, a) + αₖ[R(s, a, s′) + γ max_{a′} Qₖ(s′, a′)].

Ez a képlet a Bellman optimálási egyenlet várható értékének sztochasztikus közelítése, ahol minden iteráció során az éppen kapott megfigyelés szolgáltatja az aktuális korrekciót. Az így definiált frissítés tehát nem más, mint egy sztochasztikus gradienslépés, amely az elvárt jövőbeli jutalom jobb becsléséhez vezet.

A pénzügyi „cliff walking” probléma remek példája ennek. A SARSA és Q-learning algoritmusok szinte azonos optimális stratégiához konvergálnak, amennyiben az ε értéke megfelelően csökkentett menetrend szerint változik az epizódok számával. Ezt alátámasztja a megfigyelt kumulatív jutalom is, amely azonos pályára kerül a két algoritmus esetében.

A Robbins–Monro eljárások hatékonyan alkalmazhatók nemcsak online, hanem offline tanulás során is. Ebben az esetben mini-batch adathalmazokkal dolgozunk, amely az adatok gyorsabb és stabilabb feldolgozását teszi lehetővé. Ez a megközelítés elterjedt a gépi tanulásban, különösen a mini-batch gradiensmódszerekben.

Különösen nagy állapottérrel rendelkező megerősítéses tanulási feladatok esetében, mint amilyen a diszkrét időben zajló optimális részvényeladási probléma, ez a batch-megközelítés alapvetővé válik. A példában a brókernek N = 10 blokkban, egyenként n = 1000 részvényt kell eladnia. Az állapottér a készlet és az ár kombinációjaként jön létre, diszkrétített árfolyamértékekkel, és az idődimenziót is hozzávéve egy 3D rácsot kapunk.

A modell során a részvényeladások befolyásolják az árfolyamokat:
Sₜ₊₁ = Sₜe^{(1−νaₜ)} + σSₜZₜ,
ahol ν piaci súrlódási paraméter, és Zₜ normális eloszlású zaj. Az állapottér 10 (készletszint) × 12 (árszint) × 10 (idő) méretű lesz. Az akciótér négy lehetséges eladásból áll: 0, 1, 2 vagy 3 blokk. Az akció-érték függvény egy négydimenziós tenzorként tárolható, mérete: 10×12×10×4.

A cél egy olyan időfüggő stratégia megtanulása, amely egyensúlyt tart a gyors eladás – ami csökkenti a piaci kockázatot, de növeli a piaci hatást – és a visszatartott eladás között, amely ellenkező hatású. A tanulás ε-g