A felajánló szerepe az Ultimátum játékban jelentős, hiszen ő határozza meg, hogyan osztják el az eredeti összeget. A felajánlók három különböző stratégiát alkalmazhatnak: igazságos, igazságtalan vagy véletlenszerű. Az igazságos stratégia szerint a felajánló az összeget úgy osztja el, hogy az ellenfélnek több mint felét adja. Az igazságtalan stratégia esetében az ellenkezője igaz: a felajánló olyan összeget kínál, amely kisebb, mint a felajánlott összeg fele. Végül a véletlenszerű stratégia az, amikor a felajánló tetszés szerint osztja el az összeget, nem figyelembe véve semmiféle előzetes szabályt vagy tapasztalatot. A válaszadó szerepe szintén meghatározó: ő lehet igazságos, igazságtalan, mindig elfogad, vagy mindig elutasít, vagy akár véletlenszerűen dönthet, hogyan reagáljon az adott ajánlatra.

A gépi tanulás, különösen a megerősítéses tanulás alkalmazása az Ultimátum játékban azt célozza, hogy az ügynökök optimalizálják döntéshozatali folyamataikat azáltal, hogy az eddigi döntések alapján saját maguk formálják stratégiáikat. A megerősítéses tanulás egy epsilon-greedy politikát alkalmaz, amely az exploráció és az exploitáció egyensúlyát hangsúlyozza. Az epsilon értékének csökkenésével a döntéshozatal egyre inkább az eddigi tapasztalatokra épít, hiszen az ügynökök előnyben részesítik azokat a döntéseket, amelyek korábban nagyobb jutalmat eredményeztek számukra. A megerősítéses tanulás tehát lehetővé teszi, hogy az ügynökök hatékonyan alkalmazkodjanak a játék környezetéhez, miközben egyre inkább a korábbi tapasztalatokat hasznosítják.

A tanulás másik fontos aspektusa a hiedelem alapú tanulás, amelyben az ügynökök döntéseiket nemcsak a saját tapasztalataik alapján, hanem a másokkal való interakciók alapján is alakítják. Ebben az esetben döntési fák kerülnek alkalmazásra, amelyek segítenek az ügynököknek előre jelezni, hogy egy ajánlatot elfogadnak-e vagy elutasítanak, figyelembe véve az eddigi ajánlatokat és a játék további jellemzőit. A hiedelem alapú tanulás alkalmazása során a játékosok először megerősítéses tanulást használnak a háttérinformációk felhalmozásához, majd ezt követően döntési fákat használnak annak érdekében, hogy finomhangolják döntéshozatali stratégiáikat. A véletlenszerű stratégiák és az epsilon-greedy politika együttes alkalmazása lehetővé teszi az ügynökök számára, hogy az egyes interakciók során folyamatosan alkalmazkodjanak a dinamikusan változó környezethez.

A több ügynökös hálózatokban végzett tanulás új szintre emeli a játékokat. Amikor az ügynökök hálózatokban helyezkednek el, a közelségük, tehát hogy kikhez férhetnek hozzá könnyebben, jelentős hatással van az interakcióikra. Az ügynökök tudatában vannak annak, hogy mely más ügynökökkel tudják hatékonyabban keresni a kapcsolatokat, és ezt az információt a döntéseik során felhasználják. A hálózatokban történő tanulásnak két fő megközelítése van: mikroszkopikus, amely az egyéni tanulásra épít, és makroszkopikus, amely a társadalmi tanulást, vagyis a mások viselkedésének utánozását helyezi előtérbe. Az ügynökök a saját tanulási szabályaik szerint alkalmazkodnak az új helyzetekhez, és más ügynökök tanulmányozásával fejlődnek.

Az agent alapú modellek világában egyre inkább elterjedt az a megközelítés, hogy a tanulás nemcsak a játékosok közvetlen interakcióira épít, hanem a környezetükben található hálózatokban végbemenő társadalmi interakciókra is. A közvetlen interakciók során az ügynökök képesek saját magukat folyamatosan fejleszteni, mivel a hálózatban található közelség érzékelése révén a döntéshozatal hatékonyabbá válik. A különböző hálózati struktúrák, mint a barátok, munkatársak vagy szomszédok közötti közvetlen kapcsolatok, mélyebb megértést nyújtanak arról, hogy miként formálódik az egyes ügynökök döntéshozatala a közvetlen környezetük hatására.

A gépi tanulás különböző módszereinek és a hálózati interakcióknak a kombinálása új dimenziókat ad az Ultimátum játék modellezésének. Az ügynökök folyamatosan alkalmazkodnak a játék során felmerülő különböző helyzetekhez, és tanulási algoritmusokat alkalmazva igyekeznek maximalizálni saját előnyüket, miközben figyelembe veszik a társadalmi és hálózati hatásokat is. Az ilyen típusú modellek nemcsak az egyes ügynökök döntéseit, hanem a társadalom egészének fejlődését is előre jelezhetik, mivel a tanulási folyamatok és a hálózati interakciók együttes hatása formálja a játék kimenetelét.

A Reinforcement Learning alapvető értékelési módszerei és frissítési stratégiái

A Reinforcement Learning (RL) területén az értékelési módszerek, különösen azok frissítési stratégiái, kulcsfontosságúak a döntéshozó rendszerek hatékonyságának növelésében. A következő szakaszokban a legfontosabb értékelési és frissítési eljárásokat, valamint a politikák és a cselekvéskiválasztás különböző megközelítéseit vizsgáljuk.

Az egyik legfontosabb mutató, amelyre az értékelést alkalmazzuk, természetesen az az elvárt jutalom értéke, amelyet egy adott cselekvés végrehajtása eredményezhet. A rendszer által végrehajtott cselekvés kiválasztása a legígéretesebb eredményt hozó cselekvés megtalálására irányul. E potenciális jutalom kimenetét gyakran "visszatérésnek" nevezzük, amelyet matematikai kifejezésben az alábbi módon határozhatunk meg:

gt=rt+1+γrt+2+γ2rt+3+=γkrt+1+kg_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dots = \gamma^k r_{t+1+k}

Ahol γ\gamma az a diszkontálási tényező, amely biztosítja, hogy a jövőbeli jutalmak kisebb súllyal számítanak, és ezzel biztosítja a visszatérés konvergenciáját. Az RL célja a visszatérés maximalizálása, amelyet gyakran „értéknek” nevezünk. Ha az értéket csak az állapothoz mérten becsüljük, akkor egy adott politika π\pi állapotértéke (state-value function) a következő képlettel ábrázolható:

Vπ(s)=E[t=0γtRtSt=s]V^\pi(s) = \mathbb{E}[\sum_{t=0}^{\infty} \gamma^t R_t | S_t = s]

Ez azt jelenti, hogy az állapot értéke a jövőbeli jutalmak várható összegét jelenti, figyelembe véve az adott politika által meghatározott cselekvési sorrendet. Amikor a cselekvések is szerepet kapnak, akkor a Q-értékelésről beszélünk, amely a cselekvés végrehajtása utáni várható jutalmat és visszatérést értékeli.

A Q-értékek az alábbiak szerint ábrázolhatóak:

Qπ(s,a)=E[t=0γkRt+k+1St=s,At=a]Q^\pi(s, a) = \mathbb{E}[\sum_{t=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]

Ha a politika determinisztikus, akkor a V és Q értékek azonosak, míg sztochasztikus politikák esetében a Q-értékek az állapot-értékek és az adott cselekvési eloszlás függvényeiként jelennek meg.

Bár a jutalomfüggvények létrehozása nem minden esetben egyszerű, mivel számos alkalmazás folyamatosan zajló interakciókra épít, a megfelelő jutalomfüggvény megléte alapvetően meghatározza a rendszer teljesítményét. A valós alkalmazásokban, például autóvezetésnél, a megfelelő jutalom meghatározása különösen bonyolult lehet. A problémát részben úgy is kezelhetjük, hogy a jutalomfüggvényt olyan jól bevált politikák alapján tanuljuk, amelyek már bizonyították hatékonyságukat, például az Inverse Reinforcement Learning (IRL) vagy az Imitation Learning módszerekkel. Emellett a Reward Shaping technikákat is alkalmazhatjuk, hogy a meglévő jutalomfüggvényt megbízhatóbbá tegyük.

A frissítési stratégiák tekintetében három alapvető megközelítést különböztethetünk meg: a Dinamikus Programozást (DP), a Monte Carlo (MC) módszereket és a Temporális Különbség (TD) módszereket. Mindezek sajátosságaikat tekintve különböznek, de közös céljuk a modellezett környezetben a megfelelő értékek frissítése, hogy a tanulás és a döntéshozás minél hatékonyabb legyen.

A Dinamikus Programozás (DP) volt az egyik első módszer, amelyet az RL-ben alkalmaztak. Az ezen alapuló frissítési egyenlet, a Bellman-egyenlet, minden egyes lépésnél frissíti az értékbecslést. A módszer azonban nem alkalmazható modellek nélküli környezetekben, mivel a tranzíciós funkcióra alapoz.

A Monte Carlo (MC) módszerek a frissítést csak az epizódok végén végzik el, így nem alkalmasak folyamatosan zajló feladatokhoz. Az értékelés egy adott állapothoz tartozó visszatérések átlagos összegén alapul, figyelembe véve az összes előfordulást.

A Temporális Különbség (TD) módszerek az MC és a DP elveit ötvözik, és különösen hasznosak olyan problémákban, ahol a világ modellje (tranzíciós és jutalomfüggvények) nem ismert. A TD frissítés egy adott állapot-értéket az aktuális jutalom és a következő állapot értéke alapján frissíti. A TD hibát (δt\delta_t) úgy számítjuk ki, hogy figyelembe vesszük a jelenlegi jutalmat és az új állapot becsült értékét:

Vt+1(st)=Vt(st)+α[rt+1+γVt(st+1)Vt(st)]V_{t+1}(s_t) = V_t(s_t) + \alpha[r_{t+1} + \gamma V_t(s_{t+1}) - V_t(s_t)]

A módszerek összehasonlítására a következő táblázat szolgálhat:

MódszerModellfüggetlenFolyamatos környezetekNem-Markov környezetekElfogulatlan
Dinamikus programozásX
Monte CarloXXX
Temporális különbségXXX

Az On-policy és Off-policy kifejezések az értékelési módszerek egy-egy specifikus típusát jelölik, attól függően, hogy a becsléseket a politika döntési szabályaihoz igazítják-e, vagy azok túllépnek a szabályokon. A Q-Learning például egy off-policy módszer, míg a SARSA on-policy alternatíva. A fő különbség az, hogy az off-policy módszerek a legjobb cselekvés kiválasztásakor nem a következő lépésben választott cselekvést veszik figyelembe, hanem a legjobb elérhető cselekvést.

Mindezek a technikák a Reinforcement Learning fejlődésének alappillérei, és azok alkalmazása jelentős hatással van a rendszer teljesítményére.