A Vázlatos Komplexitás (VC) dimenzió, amely az algoritmusok tanulási képességét méri, alapvető szerepet játszik a mesterséges neurális hálózatok teljesítményében. A VC dimenzió mérésére szolgáló elméletek és az ezen alapuló induktív inferencia folyamata az 1998-as Vapnik által megfogalmazott struktúrált empirikus kockázat minimalizálás (structural empirical risk minimization) módszerének szerves részét képezik. Ezen megközelítés lehetővé teszi a legkisebb teszt hibahatár elérését a tanulási hibák figyelembevételével, miközben a legkisebb VC dimenzióval rendelkező modellt választja, amely minimalizálja az elméleti kockázatot.

A VC dimenzió meghatározása és annak szerepe a neurális hálózatokban, különösen a feedforward típusú hálózatokban, szoros összefüggésben áll a bias-variancia cseréjével. Az egyik oldalról a bias csökkentése érdekében széles funkciótérből kell választani, amely nem feltétlenül rendelkezik alacsony VC dimenzióval. A másik oldalról viszont, ahogy a VC dimenzió nő, a modell expresszivitása, vagyis a variancia, egyre inkább dominálni kezd, növelve ezzel a teszt és a tanulási hibák közötti különbséget.

Fontos megérteni, hogy a tanulás hatékonyságát nemcsak a VC dimenzió, hanem az elérhető tanulóadatok mennyisége is jelentősen befolyásolja. Kisebb minták esetén a VC dimenzió szerepe hangsúlyosabbá válik, míg nagyobb adathalmazok esetén az optimalizálásra alkalmazott algoritmusok és a számítási kapacitás lesznek a domináns tényezők. Ez azt jelenti, hogy a VC dimenzió egyre kisebb szerepet kap, ha a minták száma elegendő ahhoz, hogy az algoritmusok hatékonyan tanuljanak.

A tanulási teljesítmény előrejelzése érdekében a VC dimenzióra alapozott hibahatárok nem mindig nyújtanak tökéletes eredményt. Az ilyen típusú elméletek csak i.i.d. (független és azonos eloszlású) adatok esetén alkalmazhatóak érvényesen, miközben az autokorrelált adatok (például pénzügyi adatok) esetében ezen elméletek alkalmazhatósága erősen korlátozott.

A feedforward neurális hálózatok tanulási teljesítményét, és különösen az empirikus kockázatot, amely a tanulási hibák összegét méri, a VC dimenzió és a tanulóminták száma közötti trade-off határozza meg. A VC dimenzióval kapcsolatban végzett kutatások azt is megállapították, hogy a hálózati mélység növekedésével a VC dimenzió is nő, azonban a különböző aktiváló függvények (például Heaviside-funkciók) alkalmazása és a hálózati rétegek számának növelése nem feltétlenül eredményez mindig jobb teljesítményt. Bár a mély hálózatok képesek nagyobb komplexitású mintákat is tanulni, a hozzájuk kapcsolódó kockázatok és a számítási igények növekedése miatt nem minden esetben indokolt a hálózati mélység további növelése.

A hálózatok belső struktúrája, mint például a darabos polinomok (piecewise polynomials) alapú aktiválások, további hatással lehetnek a VC dimenzió növekedésére és a modell expresszivitására. Az ilyen típusú aktiválások különösen a közelítő modellezésben, például spline-okká alakított MLP-k (multilayer perceptronok) használatában jönnek szóba, amelyek képesek darabos, lineáris vagy nemlineáris görbéket approximálni.

A szplineszerű aktivációk és a darabos polinomok esetében egy hálózat képes lineárisan kombinálni az aktiváló függvényeket úgy, hogy a bemeneti adatok körüli teret egy sor darabos, folyamatos alapfüggvénnyel bontja fel. A Heaviside-funkciók alkalmazása különösen hasznos lehet abban az esetben, amikor a cél a bemeneti adatokat pontosan illeszteni egy rácshoz vagy egy szilárd funkcionalitásra, mivel az ilyen aktivációk rendkívül egyszerűek, de jól alkalmazhatóak az adatok darabolására és az egyszerű interpolációs problémák megoldására.

A hálózatok működésének alapja a bemeneti adatok egy sor neurális aktivációs lépésen való áthaladása, ami lehetővé teszi számukra a darabos funkcionalitások előállítását, amelyeket szintén alkalmazhatunk a komplex funkcionális közelítésekre. Az ilyen hálózatok esetében a hibahatárok az aktivációs függvények és a rácsos pontok közötti eltérés függvényében határozhatók meg, és az ilyen típusú modellek képesek rendkívül pontos közelítéseket adni.

Azonban az egyik legfontosabb dolog, amit a tanulási elméletek és a gyakorlat során is figyelembe kell venni, hogy a VC dimenzió és az empirikus kockázat mérése csak korlátozottan használható, ha a bemeneti adatok nem i.i.d. típusúak. Az adatok autokorrelációja, amely különösen fontos a pénzügyi adatok elemzése során, jelentős kihívásokat jelenthet a modellek számára. Ezért az optimális tanulási stratégiák kiválasztásakor az adatok típusának és a rendelkezésre álló számítási erőforrásoknak a figyelembevételével kell dönteni.

Hogyan alkalmazhatók a Bayesi módszerek sztochasztikus szűrők kalibrálására?

A Bayesi kalibrálás alapját képező sztochasztikus szűrők alkalmazása számos gyakorlati kihívással jár, ahogyan azt Pitt et al. (2014) is kiemelik. Az optimalizálás során, ha a célfüggvényként a fentieket használjuk, a partikuláris szűrő újramintavételi (vagy szelektálási) lépésében egy diszkontinuus empirikus eloszlásfüggvényből történik a mintavétel. Emiatt a logaritmus valószínűségi függvény, ln(L(θ)), nem lesz folytonos a paraméterek (θ) függvényében. Ezt a problémát egy alternatív, folytonos újramintavételi eljárás alkalmazásával orvosolják. Ezen eljárás során egy kvázi-Newton módszert alkalmaznak, hogy megtalálják a θ̂ML értéket az SVLJ modell paramétereinek (μ, φ, σ²v, ρ, p, σ²J) meghatározására.

Érdemes megemlíteni, hogy a Kalman-szűrők is alkalmazhatók hasonló maximális valószínűség-keresési megközelítéssel, amelyek szintén hasonló problémák megoldására szolgálhatnak.

A Bayesi kalibrálás sztochasztikus szűrők esetében egyre inkább elterjedt módszerré vált, különösen, mivel a Markov-lánc Monte Carlo (MCMC) technikák lehetőséget biztosítanak a paraméterek pontosabb és megbízhatóbb becslésére. Az MCMC módszerek, amelyek alapját Metropolis et al. (1953) képezi, képesek az SVL modell paramétereinek becslésére, figyelembe véve az egyes rejtett állapotokat és azok időbeli dinamikáját. A technika alkalmazásával sikerül a paramétereket illeszteni a napi log-visszatérési sorozatokhoz, a megfigyelt időszakokra vonatkozóan, és az egyes paraméterek közös prior sűrűségét is meghatározni.

A paraméterek közé tartozik μ, φ, σ²v és ρ, és ezekre a modellekben előre meghatározott prior eloszlásokat alkalmazunk. A megfigyelési modell és a feltételes függetlenségi feltételek biztosítják a valószínűségi függvényt. A Bayes-i megközelítésben a megfigyelt adatok és a rejtett állapotok közötti kapcsolatok figyelembevételével alakítjuk ki a poszterior eloszlást, amely a Bayes-tétel alapján határozható meg.

A poszterior eloszlás sűrűsége az alábbi formában jelenik meg:

p(θ, x0, ..., xT | y1, ..., yT) ∝ p(μ)p(φ)p(σ²v)p(ρ) ∏T p(xt+1 | xt, μ, φ, σ²v) ∏T p(yt | xt+1, xt, μ, φ, σ²v, ρ)

Ez lehetővé teszi a paraméterek μ, φ, σ²v és ρ eloszlásainak Bayesi becslését, míg a szűrőkkel történő adatelemzés során az állapotok és paraméterek optimális értékeit határozzuk meg.

A gyakorlatban, hogy hatékonyan végrehajtsuk a Bayesi becslést, gyakran alkalmazzák a Gibbs-mintavételt, amely a Metropolis-Hastings algoritmus speciális esete. Ez a technika, amelyet különböző alkalmazásokban és szoftverekben, mint például BUGS/WinBUGS, Stan, Edward vagy PyMC3, is használnak, biztosítja a szükséges kondicionális poszterior eloszlások mintavételét. A Gibbs-mintavétel révén pontosabb paraméterbecsléseket érhetünk el, miközben a modellek rejtett állapotait is figyelembe vesszük.

A Bayesi megközelítés előnye, hogy a paraméterek eloszlásait becsüljük, nem pedig egyetlen maximum-likviditási értéket (θ̂ML), mint a gyakorlati megközelítések. Ez lehetőséget biztosít arra, hogy a sztochasztikus rendszerek és modellek belső bizonytalanságait figyelembe vegyük, és az így nyert becslések megbízhatóbbak, mint a hagyományos gyakorlati módszerek, amelyek csak egyetlen legjobb paraméterértéket keresnek.

A sztochasztikus szűrők, különösen a partikuláris szűrők és a Kalman-szűrők, szoros kapcsolatban állnak a Bayesi módszerekkel, és különböző kombinációkban alkalmazhatóak a paraméterek becslésére. A szűrők folyamatos online paraméterbecsléseket végeznek, miközben az adatok valós időben érkeznek. Az ilyen típusú adaptív szűrési módszerek, mint az ismert Kalman- és particle-szűrők, kulcsfontosságúak a pénzügyi időszakok elemzésében és más dinamikus rendszerekben.

A sztochasztikus szűrés és a MCMC módszerek együttes alkalmazása tehát lehetőséget ad arra, hogy a modellek paramétereinek és állapotainak valószínűségi eloszlása alapján megbízható és pontos előrejelzéseket készíthessünk. Emellett fontos, hogy a modern sztochasztikus szűrőkkel kapcsolatos eszközök és könyvtárak, mint például Stan, PyMC3 és Edward, lehetővé teszik ezen technikák széleskörű alkalmazását a tudományos és pénzügyi elemzések területén.