A több periódusú portfólió-optimalizálás problémája (10.93) azt feltételezi, hogy az optimális politika, amely meghatározza az akciókat (at), determinisztikus politika, és ezt egy delta-szerű valószínűségi eloszlásként is leírhatjuk: π(at | yt) = δ(at − a%t (yt)), ahol a%t (yt) az optimális determinisztikus akció, amely az objektív (10.93) maximalizálásával érhető el az irányítási tényezők (at) tekintetében. Azonban a valós kereskedési adatok gyakran aluloptimalizáltak vagy zajosak lehetnek, például modellezési hibák, piacidőzítési késések, emberi tévedések stb. következtében. Az ilyen aluloptimalizált akciók jelenléte komoly kihívásokat jelenthet, ha megpróbáljuk feltételezni, hogy a determinisztikus politika (10.96) mindig az optimális akciót választja. Ez azért van így, mert az ilyen eseményeknek nulla valószínűsége kellene, hogy legyen ezen modell feltételezések alapján, és ezért a megfigyelt adatokban ezek az események elenyésző valószínűséget eredményeznének.
A determinisztikus politika (10.96) helyett a sztochasztikus politikák, amelyeket simított eloszlások π(at | yt) írnak le, hasznosabbak az inverz problémák, például az inverz portfólió-optimalizálás problémájának kezelésére. Ebben az megközelítésben nem a determinisztikus politika/akció (at) tekintetében történik a maximalizálás, hanem a valószínűségi eloszlások π(at | yt) maximalizálásával alakítjuk át a problémát:
ahol R̂(yt , at ) = yTt Ryyyt + aTt Raaa+ aTt Rayyt + aTt Ra.
A sztochasztikus politikák alkalmazása nemcsak a kockázat-ellenőrzés szempontjából fontos, hanem azért is, mert a portfóliók optimalizálása gyakran véletlenszerű változókat, például a részvények várható hozamait és azok kovarianciáit tartalmaz. Ezt a sztochasztikus természetet nem minden esetben veszik figyelembe a Markowitz-típusú egy- vagy több-periódusú optimalizálási modellekben. Marschinski és társai (2007) egy egyszerűbb, egy-periódusú megközelítést javasoltak, amely figyelembe veszi a sztochasztikus jelleget a portfólió optimalizálásában.
Az optimális politika meghatározásához gyakran szükség van egy referenciaként használt sztochasztikus politikára, amelyet előre meg kell határozni. Az ilyen referencia-politika általában valamilyen paraméteres modellt, történelmi adatokat vagy más hasonló információkat alapul vehet. Egy egyszerűsített példaként tekinthetjük a gaussi referenciapolitikát, amely a következőképpen néz ki:
Ez az eloszlás a politikát a bemeneti adat (yt) függvényében egy normális eloszlás formájában ábrázolja, ahol â(yt) az akciók optimális determinisztikus politikája, amelyet a múltbeli adatok alapján választanak ki. A politikát jellemző paraméterek, mint â0, â1 és a szórás (σ), szintén szabadon választott hyperparaméterek, amelyeket iteratív módon frissíthetünk a további optimalizálás során.
A Bellman optimalitási egyenlet, amely a sztochasztikus politikák optimalizálásának alapját képezi, segít meghatározni az optimális politikát egy várható érték maximalizálásával. Az egyenlet így néz ki:
Az optimális politikát a következő módon határozhatjuk meg:
Az erősítéses tanulás (RL) célja, hogy megoldja ezt az optimalitási egyenletet a minták alapján, és ezzel meghatározza az optimális politikát.
A Bellman optimalitási egyenlethez kapcsolódó entropia-regulázott megközelítés további lehetőségeket ad arra, hogy szabályozzuk a politika bizonytalanságát és a referencia-politikától való eltérést. Az ilyen típusú szabályozás lehetővé teszi a rendszer számára, hogy optimális döntéseket hozzon, miközben figyelembe veszi a bizonytalanságot és a referencia-politikához való hasonlóságot.
A sztochasztikus politikák alkalmazása tehát nemcsak azért hasznos, mert a valós adatok zaja gyakran nem illeszkedik a determinisztikus modellekhez, hanem azért is, mert lehetővé teszi a kockázatkezelés finomhangolását és a bizonytalanság kezelését is. A valós világ piaci környezetében a teljes determinisztikus megközelítés gyakran nem ad megfelelő válaszokat, és a sztochasztikus politikák alkalmazása segíthet abban, hogy a modellek jobban illeszkedjenek a valós helyzetekhez.
Miért fontos a döntéshozatali és cselekvési információ elmélete a mesterséges intelligencia alkalmazásában?
A mesterséges intelligencia (MI) fejlődése és alkalmazása egyre inkább elérte a társadalom különböző területeit, az ipartól kezdve az egészségügyig. Az MI hatékony alkalmazása nemcsak az algoritmusok matematikai pontoságától, hanem a döntéshozatali és cselekvési információ hatékony kezelésétől is függ. Azok az elméletek, amelyek az információ elméletére építenek, alapvetőek ahhoz, hogy a gépek megfelelő módon reagáljanak az emberi interakciókra, optimalizálják a döntéseket és fejlesszék a tanulási folyamatokat. Az alábbiakban részletesen megvizsgáljuk, hogyan is működik mindez a gyakorlatban, és miért van jelentősége a causal információ (okozati információ) fogalmának.
A Bellman-egyenlet egy alapvető matematikai eszköz a Markov-döntési folyamatokban, melyek az MI egyik alapvető elméleti modelljét képezik. Ez az egyenlet nem csupán a jövőbeli cselekvések előrejelzésére szolgál, hanem lehetőséget ad arra is, hogy megértsük a múltbeli döntések és cselekvések hatását. A causal információ és a Bellman-egyenlet kapcsolata különösen fontos, mivel a döntéshozatal nemcsak a valós idejű adatokra, hanem a múltbeli tapasztalatokra is épít.
A causal entropia fogalmának bevezetése új dimenziót ad ennek a megértésnek. A causal entropia arra utal, hogy hogyan változik egy rendszer állapota a különböző cselekvések hatására, és hogyan lehet mérni a jövőbeli információt, amely az eddigi döntések következményeként születik. Ez az elmélet alkalmazható a gépi tanulásban, például a megerősítéses tanulás (reinforcement learning, RL) során, ahol a gép folyamatosan figyeli és optimalizálja döntéseit, hogy maximalizálja a hosszú távú nyereséget.
Az egyik legfontosabb kérdés, amelyet a causal információ elmélete próbál megválaszolni, az a döntések és cselekvések közötti interakció. Hogyan mérjük a döntés "értékét", és miként befolyásolja ez a jövőbeli eredményeket? A Bellman egyenlet és az optimális döntéshozatali szabályok kombinációja az alapja azoknak a modelleknek, amelyek képesek előre jelezni a különböző döntési lehetőségek kimeneteleinek valószínűségét és azok hosszú távú hatásait.
A causal információ tehát nem csupán az elmélet szintjén fontos, hanem a gyakorlatban is. Azok a rendszerek, amelyek képesek megfelelően kezelni és értékelni a döntéshozatali információkat, képesek olyan intelligens alkalmazásokat kifejleszteni, amelyek automatikusan optimalizálják működésüket és reagálnak a változó környezetre. Ezen alkalmazások közé tartoznak például a pénzügyi modellek, a robotika, és az önvezető autók rendszerei, ahol a pontos és gyors döntéshozatal elengedhetetlen.
További fontos megérteni, hogy a causal információ és a Bellman-egyenlet összefüggése nemcsak a döntési folyamatok előrejelzésére vonatkozik, hanem a tanulási algoritmusok hatékonyságát is növeli. A gépi tanulás során az egyik legnagyobb kihívás a megfelelő modellek kiválasztása és azok optimalizálása. Az MI rendszerek képesek egyre komplexebb problémákat megoldani, ha megfelelő információs és döntési struktúrák állnak rendelkezésre. Ezért, amikor MI alkalmazásokat fejlesztünk, kiemelten fontos a döntéshozatali és cselekvési információk elméleti hátterének alapos megértése.
A causal információ szerepe tovább bővül, amikor figyelembe vesszük a különböző valós világban történő alkalmazásokat. Például a pénzügyi piacokon a modellek képesek előre jelezni a különböző pénzügyi eszközök árfolyam-ingadozásait és azok várható hatásait. A gépi tanulás és a megerősítéses tanulás lehetőséget ad arra, hogy a pénzügyi elemző rendszerek valós időben reagáljanak a piacok változásaira, így javítva a döntéshozatali folyamatokat.
A causal információ elmélete egyúttal arra is figyelmeztet, hogy a döntések nemcsak a közvetlen hatásokon alapulnak, hanem azoknak a hosszú távú következményein is. Az információ elmélete segít megérteni, hogyan képes egy rendszer önállóan tanulni, alkalmazkodni és optimalizálni döntéseit a környezet változásaihoz. Ez az elméleti háttér hozzájárulhat a gépi tanulás jövőjének formálásához és segíthet a fejlesztőknek abban, hogy hatékonyabb, intelligensebb rendszereket alkossanak.
A causal információ tehát egy alapvető építőköve minden olyan MI alkalmazásnak, amely dinamikus és komplex döntéshozatali környezetekben működik. Ahogy a mesterséges intelligencia fejlődik, úgy egyre fontosabbá válik ezen elméletek megértése és alkalmazása, hogy az algoritmusok valóban képesek legyenek reálisan modellezni és optimalizálni a világot, amelyben működnek.
Hogyan befolyásolják a részleges autokovarianciát a rekurzív neurális hálózatok?
A nemlineáris aktiválású rekurzív neurális hálózatok (RNN-ek) leírása sokkal bonyolultabb, mint a klasszikus modelleké, különösen akkor, ha az egyes hálózati kapcsolatok között nincs egyszerű lineáris összefüggés. Azonban, a részleges autokovariancia funkció képes további betekintést nyújtani ebbe a bonyolult dinamikába. Ahhoz, hogy jobban megértsük, hogyan működnek ezek a modellek, érdemes az RNN(1) típusú folyamatot figyelembe venni, amely egyszerűsített módon egyetlen visszacsatolási súlyt használ.
Az RNN(1) folyamat lag-1 részleges autokovarianciája a következőképpen ábrázolható:
Ez a kifejezés tükrözi az RNN(1) modell egyszerűsített formáját, ahol . A kifejezés tovább egyszerűsödik, ha , és végül a következő formát ölt:
Ez a kifejezés lényegében azt jelenti, hogy a modell kovarianciáját a visszacsatolás mértéke és az előző időpontban lévő adat befolyásolja. Ha a függvény identitás, akkor a részleges autokovariancia egyszerűen a következő formában ábrázolható:
Ez az ábra jól tükrözi az autoregresszív modellek viselkedését, ahol a kovariancia közvetlenül kapcsolódik az előző értékek varianciájához.
Ha tovább lépünk a lag-2 autokovarianciákra, akkor azt tapasztaljuk, hogy a részleges autokovariancia ismét nulla lesz. Ez azzal magyarázható, hogy a második lag függése nem közvetlenül az aktuális hibáktól, hanem az előző hibáktól származik. Az RNN(2) modell esetében azonban már nem nullázódik le a részleges autokovariancia, mivel az aktuális és az előző hibák is hatással vannak egymásra.
A részleges autokorrelációs függvény (PACF) szintén fontos információkat ad a modell struktúrájáról. Mint az autoregresszív (AR) folyamatok esetében, az RNN modellekben is van egy cutoff, amely az autokorreláció függvényét megszakítja egy adott lag értéknél. Ez a tulajdonság segíthet a modell sorrendjének azonosításában, és azt jelzi, hogy az RNN p modelljének autokorrelációs funkciója szintén időfüggetlen.
A stabilitás kérdése szintén kulcsfontosságú az RNN-ek elemzésében. Az autoregresszív modellekhez hasonlóan az RNN-ek stabilitásának biztosítása érdekében figyelembe kell venni, hogy a visszacsatolás mértéke ne növekedjen túl nagyra, mivel ez instabil viselkedést eredményezhet. A stabilitás biztosításához az aktiválási függvénynek, mint például a , olyan tulajdonságokkal kell rendelkeznie, hogy a kimeneti értékek ne nőjenek korlátlanul. Az instabilitás elkerülésére különböző indukciós eljárásokat alkalmazhatunk, hogy bizonyítsuk, hogy a magasabb rendű modellek is stabilak, amennyiben az aktiválás |σ| értéke legfeljebb 1.
A stacionaritás kérdése is kiemelten fontos az RNN-ek vizsgálatakor. Egy RNN akkor mondható stacionáriusnak, ha az állapotai nem függnek az időtől. Azonban a lineáris aktiválású RNN-ek nem lesznek stacionáriusak, mivel az ilyen típusú modellek esetében a jellemző mátrix nem rendelkezik állandó sajátértékekkel. Ezért szükség van nemlineáris aktivációs függvényekre, hogy a modell stacionárius maradhasson.
A rekurzív neurális hálózatok további jellemzője a félig élettartam fogalma, amely arra vonatkozik, hogy egy impulzus milyen gyorsan veszít hatásából a hálózaton belül. Az impulzus hatása gyorsan csökkenhet a hálózaton keresztül, és a félig élettartam mérésével jellemezhetjük a memória lecsengési sebességét. Az RNN memória-degradációja tehát kulcsfontosságú az ilyen típusú modellek teljesítményének megértésében.
Fontos megérteni, hogy bár az RNN-ekben található memória és stabilitás sok esetben jól leírható, a modell különböző komponensei és az alkalmazott aktiválási függvények döntő hatással vannak ezekre a jellemzőkre. A megfelelő modellezési technikák kiválasztása és a paraméterek finomhangolása lehetőséget ad arra, hogy a rekurzív neurális hálózatok valóban stabil és hatékony eszközzé váljanak az idősorok modellezésében.
Hogyan lehet az értékfüggvényeket és akció-érték függvényeket folytonos térben közelíteni lineáris architektúrával?
A diszkrét állapotú reprezentációban, mint ahogyan az (9.54) egyenlet mutatja, a "one-hot" (Dirac-szerű) bázisfüggvényeket alkalmazzuk, ahol a függvények φn(s) = δs,sn. Ez a megközelítés segít abban, hogy megértsük, hogyan lehet ezt a beállítást most egy folytonos állapottérre általánosítani. Ahogy a hálózatok közötti átmenetet képzeljük el, egyre több pontot adunk a hálózathoz, miközben az M értékének megőrzése érdekében az egyes csomópontok környékén aggregálunk (részösszegeket képzünk). Minden ilyen összeg tagja a csomópontok átlagos tömegének és az eredeti Dirac-szerű bázisfüggvényének simított verziójának szorzataként jelenik meg egy véges MDP-ben. A szomszédos pontok ilyen részleges aggregációja egy kezelhető közelítést ad az értékfüggvény tényleges értékére a folytonos határértékek esetén.
A folytonos tér bármely pontján a függvényérték most egy M-dimenziós közelítéssel van leképezve. Ennek a véges dimenziós függvény-közelítésnek a minőségét a bővítésben szereplő tagok száma, valamint a bázisfüggvények funkcionális formája határozza meg. Egy simított, lokalizált bázisfüggvény például B-spline-okkal vagy Gauss-kernelekkel alkotható, míg többdimenziós folytonos állapotú esetekben többváltozós B-spline-okat vagy radiális bázisfüggvényeket (RBF-ket) alkalmazhatunk. A B-spline bázisfüggvények egy példáját a 9.8 ábra mutatja. Ahogyan az ábrán látható, a B-spline-ok jól lokalizált bázisfüggvényeket hoznak létre, amelyek nem nulla értékkel csak a teljes támogatási régió egy korlátozott szegmensén térnek el. Más alternatívák, például polinomok vagy trigonometrikus függvények is használhatóak bázisfüggvényekként, de ezek globális, nem pedig lokális változást képviselnek. Hasonló bővítéseket lehet alkalmazni az akció-érték függvények Q(s, a) esetében is.
Tegyük fel, hogy van egy ψk(s, a) bázisfüggvénykészletünk, ahol k = 0, 1, ..., K, melyek az S × A direkt szorzatán vannak definiálva. Az akció-érték függvényt így a következő módon közelíthetjük:
Itt a bővítés θk együtthatói szabad paramétereknek tekinthetők. Ennek megfelelően megtalálhatjuk ezen paraméterek értékeit, amelyek a legjobban illeszkednek a Bellman-optimalitási egyenlethez. Ha egy fix és véges K bázisfüggvénykészletet alkalmazunk, az akció-érték függvény Q(s, a) funkcionális optimalizálásának problémája az (9.56) egyenlet alapján sokkal egyszerűbbé válik, és K-dimenziós numerikus optimalizálássá redukálódik, függetlenül az állapot tér tényleges dimenziójától.
Fontos megjegyezni, hogy mivel K véges értékkel rendelkezik (és nem túl nagy), legfeljebb egy közelítő egyezésre számíthatunk az így kapott optimális értékfüggvény és az "igazi" optimális értékfüggvény között. Az utóbbi elvileg ugyanazzal a bázisfüggvény-bővítéssel (9.56) nyerhető el, ha a {ψk(s, a)} készlet teljes, és ha K → ∞ határértékre törekszünk. Az (9.56) egyenlet tehát példát ad a függvény-közelítésre, ahol egy érdekes függvényt K bázisfüggvény bővítésén keresztül reprezentálunk, és a θk együtthatók állítható paraméterek.
Az ilyen lineáris függvényreprezentációkat gépi tanulási irodalomban lineáris architektúráknak nevezik. Az érdekes függvényeket, mint az érték- és/vagy politika-függvények, ezeken a lineáris architektúrákban lineáris paraméterek és bázisfüggvények kombinációjaként ábrázolják és számítják ki. A lineáris architektúrák egyik legnagyobb előnye, hogy viszonylag robusztusak és számítógépesen egyszerűek. Az ábrázolt függvényekben bekövetkező változások mértéke alapvetően a bázisfüggvények lehetséges változásainak mértékétől függ, és ezért ezt expliciten szabályozhatjuk. Ráadásul mivel az (9.56) egyenlet lineáris a θ-k iránt, analitikus megoldásokat adhatunk, ha a veszteségfüggvény quadratikus, vagy egyedi és könnyen kiszámítható numerikus megoldásokat kaphatunk, ha a veszteségfüggvény nem quadratikus, de konvex. A lineáris architektúrák alkalmazásával működő megerősítéses tanulási módszerek biztosan konvergálnak.
Másrészt a lineáris architektúrák alkalmazása nem mentes a hátrányoktól. A fő hátrányuk, hogy nem adnak iránymutatást arra, hogyan válasszunk jó bázisfüggvény-készletet. Egy egyváltozós, folytonos állapot esetén nem nehéz egy jó bázisfüggvény-készletet kifejleszteni. Például használhatunk trigonometrikus bázist, vagy spline-okat, sőt, akár polinomiális bázist is. Azonban többdimenziós, folytonos állapotú esetekben a jó bázisfüggvények megtalálása nem trivialis. Ez a probléma túlmutat a megerősítéses tanuláson, és gépi tanulásban általánosan ismert, mint jellemző konstrukciós (vagy kinyerési) probléma. Az ilyen esetek kezelésére egy lehetséges megközelítés, hogy nem-lineáris architektúrákat alkalmazzunk, amelyek általános függvény-közelítési eszközöket használnak, például fákat vagy neurális hálózatokat, hogy rugalmas reprezentációkat biztosítsanak az érdekes függvényekhez, amelyek nem támaszkodnak előre meghatározott bázisfüggvény-készletekre. Különösen a mély megerősítéses tanulás akkor valósul meg, amikor mély neurális hálózatot használunk az értékfüggvények vagy akciópolitika (vagy mindkettő) közelítésére megerősítéses tanulási feladatokban.
Batch-módú Q-tanulás alkalmazásakor az (9.56) egyenlet alapú lineáris reprezentációval mind a véges, mind a folytonos MDP problémák esetén egységes leírást adhatunk a Q-tanulás algoritmusairól. Az optimális Bellman-egyenlet megoldása most már a θk paraméterek megtalálását jelenti. Nyilvánvaló, hogy ha az összes K > 1 paramétert szeretnénk meghatározni, akkor egyetlen adatpont megfigyelése minden iterációban nem lesz elegendő ahhoz, hogy egyedülálló és jól meghatározott módon meghatározzuk őket, vagy frissítsük előző becslésüket. Ehhez legalább K megfigyelésre van szükségünk (és a magas varianciájú becslések elkerülése érdekében ezek többszörösképeire).
Hogyan befolyásolják a vallási sértések a társadalmi normákat és a törvényeket?
Mi a prognózisa az α1-antitripszin hiányának és a Wilson-kórnak, és hogyan történik a családi szűrés?
Hogyan alakítja a populizmus a társadalmat és milyen hatással van a politikai vezetésre?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский