A statisztikai modellezés egyik alapvető eleme a sorozatok viselkedésének megértése. Az autoregresszív (AR) folyamatok, amelyek a múltbeli megfigyelések lineáris kombinációján alapulnak, lehetőséget adnak arra, hogy a jövőbeli értékek előrejelzésekor figyelembe vegyük az előző értékeket, miközben a fehér zaj (fehér zaj: i.i.d. hibák) torzítja az adatokat. A modellek fejlesztése során az autokorreláció és az autokovariancia szerepe kulcsfontosságú, mivel ezek segítenek meghatározni, hogy a múltbeli információk hogyan hatnak a jövőbeli adatokra.
Autokorreláció és autokovariancia
Az autokorreláció, τj, a j-edik autokovariancia és a variancia hányadosa, amely kifejezi az időbeli összefüggést egy változó különböző időpontokban mért értékei között. A sztochasztikus folyamatokban az autokovarianciák nem függnek az időpontoktól, csupán az időpontok közötti intervallumtól, tehát γj = γ−j: ez azt jelenti, hogy az autokovarianciák szimmetrikusan viselkednek a megfigyelés ideje szerint. Ezen túlmenően az autokorrelációk jellemzőek az adatok függőségi struktúrájára, és segítségükkel könnyebben modellezhetők a véletlen folyamatok.
Fehér zaj
A fehér zaj, εt, egy független, azonos eloszlású (i.i.d.) hiba, amely három alapvető feltételt teljesít: az elvárt értéke 0, a szórása konstans, és a különböző időpontok közötti értékek függetlenek. A fehér zaj gyakran "zavarként" vagy "innovációként" jelenik meg a pénzügyi időszakos modellezésben, és alapvetően befolyásolja a sorozatok viselkedését, amikor az adatok valószínűségi diszkrét változókat tartalmaznak.
Autoregresszív modellek
Az autoregresszív (AR) modellek, mint az AR(p) folyamatok, azok a paraméteres idősoros modellek, amelyek a változót (yt) a p korábbi megfigyelés lineáris kombinációjaként és fehér zajként írják le. Egy p-edik rendű autoregresszív folyamat így van kifejezve:
ahol μ a drift, φi a modellezett paraméterek, p pedig a modell rendje. Az AR(p) modellek rendjét az adatok statisztikai tulajdonságai, például a kovariancia állandósága határozza meg. Fontos, hogy az adatok gyenge kovarianciával állandóak legyenek a modell paramétereinek meghatározásakor.
Stacionaritás és stabilitás
A stacionaritás egy alapvető feltétel az AR(p) modellek alkalmazásában. Ha a folyamat nem stacionárius, a múltbeli értékek hatása az idő előrehaladtával változó lehet. A stabilitás az AR(p) folyamatok egyik legfontosabb jellemzője, mivel meghatározza, hogy a múltbeli zavarok hogyan befolyásolják a jelenlegi megfigyeléseket. Ha a φ paraméterek abszolút értéke kisebb, mint 1, akkor a folyamat stabil. Az instabilis folyamatoknál a zavarok hatása növekszik az idővel.
A sztochasztikus modellek és az impulzusválasz-funkciók
A sztochasztikus modellek és az impulzusválasz-funkciók (IRF) összekapcsolásával jobban megérthetjük, hogyan hatnak a múltbeli zavarok a jövőbeli értékekre. Az impulzusválasz-funkciók segítenek vizualizálni a múltbeli zavarok hatását a modell stabilitásának függvényében. Az AR(p) modellben az IRF geometrikusan csökken, ha a modell stabil, és a múltbeli zavarok hatása fokozatosan elhalványul.
A részleges autokorrelációk szerepe
A részleges autokorrelációk, amelyek az autoregresszív modellek sajátos jellemzői, kulcsfontosságúak az AR(p) modell rendjének meghatározásában. Mivel minden részleges autokorreláció a különböző időbeli késleltetések közötti függőséget méri, anélkül, hogy figyelembe venné a közbenső késleltetéseket, ezek segítenek az optimális p értékének meghatározásában. Az úgynevezett Yule-Walker egyenletek a részleges autokorrelációkat és az autokorrelációkat összekapcsolják, lehetővé téve a modell paramétereinek pontos meghatározását.
A részleges autokorrelációk grafikus ábrázolása (például a részleges korrelációs diagram) segíthet megérteni, hogy a múltbeli megfigyelések hogyan alakítják a jelenlegi adatokat, és hogyan csökken a hatásuk az idő múlásával.
A statisztikai tesztek és a jellemzők alapján a modellek rendjének és stabilitásának meghatározása elengedhetetlen a sikeres időbeli előrejelzéshez. A gyakorlatban az autoregresszív modellek alkalmazása segíthet pontosabb előrejelzések készítésében, legyen szó pénzügyi piacok, gazdasági mutatók vagy más sztochasztikus folyamatok elemzéséről. A megfelelő modell kiválasztása és a stabilitás ellenőrzése lehetővé teszi, hogy a sztochasztikus modellek megbízható eredményeket adjanak a jövőbeli adatok előrejelzésére.
Hogyan működik a Q-learning mint sztochasztikus közelítés a Bellman-egyenlet megoldására?
A Q-learning módszert érdemes a Robbins–Monro-féle sztochasztikus közelítések keretében értelmezni, melyek célja az ismeretlen várható értékek iteratív becslése anélkül, hogy az összes minta előre rendelkezésre állna. E megközelítés nemcsak elméleti szilárdságot ad a TD-alapú frissítési szabályoknak, hanem lehetőséget teremt a megfigyelések batch-alapú feldolgozására is, amikor az adatokat nem egyesével, hanem halmazokban dolgozzuk fel.
A Robbins–Monro algoritmus olyan sztochasztikus iteráció, amely biztosítja, hogy a becsült érték – megfelelő tanulási rátával – majdnem biztosan konvergáljon az igazi várható értékhez. Ennek iteratív alakja:
x̂ₖ₊₁ = (1 − αₖ)x̂ₖ + αₖxₖ,
ahol αₖ a tanulási ráta az adott lépésnél. A konvergencia feltétele, hogy ∑αₖ divergens, míg ∑αₖ² konvergens legyen. Ez a tanulási ráta-választás finomhangolását igényli, és az adott problémától erősen függ.
A Q-learning frissítési szabálya ezen elven alapul:
Qₖ₊₁(s, a) = (1 − αₖ)Qₖ(s, a) + αₖ[R(s, a, s′) + γ max_{a′} Qₖ(s′, a′)].
A pénzügyi „cliff walking” probléma remek példája ennek. A SARSA és Q-learning algoritmusok szinte azonos optimális stratégiához konvergálnak, amennyiben az ε értéke megfelelően csökkentett menetrend szerint változik az epizódok számával. Ezt alátámasztja a megfigyelt kumulatív jutalom is, amely azonos pályára kerül a két algoritmus esetében.
A Robbins–Monro eljárások hatékonyan alkalmazhatók nemcsak online, hanem offline tanulás során is. Ebben az esetben mini-batch adathalmazokkal dolgozunk, amely az adatok gyorsabb és stabilabb feldolgozását teszi lehetővé. Ez a megközelítés elterjedt a gépi tanulásban, különösen a mini-batch gradiensmódszerekben.
Különösen nagy állapottérrel rendelkező megerősítéses tanulási feladatok esetében, mint amilyen a diszkrét időben zajló optimális részvényeladási probléma, ez a batch-megközelítés alapvetővé válik. A példában a brókernek N = 10 blokkban, egyenként n = 1000 részvényt kell eladnia. Az állapottér a készlet és az ár kombinációjaként jön létre, diszkrétített árfolyamértékekkel, és az idődimenziót is hozzávéve egy 3D rácsot kapunk.
A modell során a részvényeladások befolyásolják az árfolyamokat:
Sₜ₊₁ = Sₜe^{(1−νaₜ)} + σSₜZₜ,
ahol ν piaci súrlódási paraméter, és Zₜ normális eloszlású zaj. Az állapottér 10 (készletszint) × 12 (árszint) × 10 (idő) méretű lesz. Az akciótér négy lehetséges eladásból áll: 0, 1, 2 vagy 3 blokk. Az akció-érték függvény egy négydimenziós tenzorként tárolható, mérete: 10×12×10×4.
A cél egy olyan időfüggő stratégia megtanulása, amely egyensúlyt tart a gyors eladás – ami csökkenti a piaci kockázatot, de növeli a piaci hatást – és a visszatartott eladás között, amely ellenkező hatású. A tanulás ε-g
Mi volt a Trump elleni impeachment folyamata, és milyen hatásokkal járt Ukrajnára nézve?
Miért követik a Trump-rajongók a hazugságokat és miért tekintik őt hiteles vezetőnek?
Hogyan növelhetjük rostbevitelünket és miért fontos?
Hogyan működnek az Android média lejátszó és Heads-Up értesítések az API 21+ verziókon?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский