A generatív ellenséges imitációs tanulás (GAIL) egy olyan megközelítés, amely az inverz megerősítéses tanulás (IRL) problémáját egy új dimenzióval egészíti ki, és lehetővé teszi a politikák tanulását jutalmak közvetlen megfigyelése nélkül. Az IRL lényege, hogy a tanuló agent a környezetből és a szakértő politikájából származó adatokat használva próbálja rekonstruálni a környezetben érvényes jutalomfunkciókat. A GAIL célja ezen adatok alapján optimális politikát találni, anélkül, hogy explicit módon kellene megoldani az alapvető megerősítéses tanulás (RL) problémát.

A GAIL a Max-Causal Entropy módszer kétlépcsős elméletére épít. Az előző szakaszban bemutattuk, hogyan érhető el a Maximum Entropy IRL a modell maximális valószínűségű következtetése segítségével, amelyet közvetlen RL technikával, pontosabban G-tanulással valósítunk meg. Az ilyen megközelítések általában egy paraméterezett jutalomfüggvényt feltételeznek, ami az optimális politika kifejlesztéséhez szükséges. Azonban a GAIL célja, hogy elkerülje a közvetlen RL problémájának megoldását, és helyette egy olyan modellt használjon, amely közvetlenül optimalizálja a politikát és a jutalomfüggvényt is.

A GAIL lényegében a következő problémát próbálja megoldani: hogyan találjunk optimális politikát (π), miközben nem rendelkezünk közvetlenül megfigyelt jutalmakkal, csupán egy szakértői politika által generált adatokkal. Ennek megoldásához a probléma feloldása két szempontot érint: egyrészt egy ismert, de ismeretlen jutalomfüggvényt feltételezünk, másrészt optimalizáljuk mind a politikát, mind a jutalomfüggvényt. Az alapötlet az, hogy a közvetlen RL problémát elkerüljük, és az optimalizálás folyamatában a politika és a jutalom közvetlen együtt optimalizálódik, miközben figyelembe vesszük a causal entropy korlátozásait is.

A probléma matematikai megfogalmazása az alábbi módon néz ki:

maxπminc(s,a)CEρπ[c(s,a)]EρE[c(s,a)],\max_{\pi} \min_{c(s,a) \in C} E_{\rho_{\pi}}[c(s,a)] - E_{\rho_E}[c(s,a)],

ahol ρπ(s,a)\rho_{\pi}(s, a) és ρE(s,a)\rho_E(s, a) a tanult és a szakértői politika által indukált állapot-cselekvés eloszlások, a causal entropy szabályozás mellett. Az ilyen típusú problémák különösen illeszkednek a GAIL keretrendszeréhez, mivel itt az optimalizálás célja, hogy egy olyan politikát találjunk, amely legalább annyi költséget generál, mint a szakértői politika a nem ismert költségfüggvénnyel.

A GAIL elsődleges előnye, hogy elkerüli a közvetlen megerősítéses tanulás problémáinak többszöri megoldását, amelyek szükségesek lennének, ha paraméteres költségfüggvényeket alkalmaznánk. Ehelyett egy nem-paraméteres költségfüggvényt alkalmazunk, amely lehetővé teszi az optimalizálás analitikus végrehajtását, nem pedig numerikus iterációkat. Ennek következményeként a GAIL gyorsabb és hatékonyabb lehetőséget kínál az optimális politika megtalálására.

A GAIL működésének alapja az, hogy a tanuló agent egy nem-paraméteres költségfüggvényt használ, amely minden lehetséges költségfüggvényre kiterjed. Ezáltal az optimalizálás nemcsak hatékonyabb, hanem a politikák és költségfüggvények közötti kapcsolat is egyértelműbbé válik. A probléma tehát nemcsak a politikák tanulására irányul, hanem a költségfüggvények kifejlesztésére is, amelyek nemcsak a közvetlen RL megoldások által ismertettek.

A GAIL egyik kulcsfontosságú összetevője a szabályozás. A gépi tanulás különböző alkalmazásaiban a szabályozás szerepe eltérő lehet. Míg egyes problémákban a szabályozás csupán egy kiegészítő szerepet játszik, például a ridge (L2) regularizációs módszer esetében, addig a GAIL-ben a szabályozás kritikus jelentőségű. A megfelelő szabályozási funkció választása határozza meg, hogy milyen típusú imitációs tanulás valósítható meg, beleértve a hagyományos viselkedési klónozási (BC) megközelítéseket, de új és potenciálisan jobb megoldásokat is. A szabályozás hatására a GAIL képes biztosítani, hogy az optimalizált politikák ne csak a szakértői politika költségfüggvényeihez illeszkedjenek, hanem azokat hatékonyan generalizálják is.

Ezen megoldások különbözősége miatt fontos, hogy a GAIL minden alkalmazása előtt alaposan mérlegeljük, milyen típusú szabályozást választunk. Az egyes megoldások különböző problémákra adnak választ, és a szabályozás típusa jelentősen befolyásolhatja a tanulási folyamatot és annak eredményességét.

Hogyan működik a T-REX modell a jutalom kinyerésében és miért fontos az irreális demonstrációk elemzése?

A T-REX modell alkalmazása az Inverse Reinforcement Learning (IRL) területén egy új megközelítést jelent, amely célja a demonstrátor szándékainak minél pontosabb reprodukálása anélkül, hogy a bemutatott demonstrációk minden esetben optimálisak lennének. A T-REX modellben a jutalom kinyerésének célja egy paraméterezett jutalomfüggvény r̂θ (s, a) megtalálása, amely közelíti a valódi jutalomfüggvényt, amit a demonstrátor optimalizálni próbál. Ez a cél tipikus IRL objektívumként van megfogalmazva, de a T-REX modellben van egy kulcsfontosságú új elem: a jutalomfüggvényre strukturális korlátozást alkalmaznak. Ez a kiegészítő korlátozás biztosítja, hogy a jutalomkumulációk, amelyeket a kinyert jutalomfüggvénnyel számolunk, megfeleljenek a rangsoroló relációnak: ∑ ∑ r̂θ (s, a) < r̂θ (s, a), ha τi ≺ τj.

Ez azt jelenti, hogy a modell célja nem csupán az, hogy a demonstrált eredményekhez hasonló teljesítményt érjen el, hanem az, hogy a demonstrációk rangsorát, azok teljesítményei szerint reprodukálja. A T-REX modell így egy olyan osztályozót tanít, amely képes előre jelezni, hogy egy adott trajektória preferáltabb-e a másiknál az alapján, hogy a teljes visszatérítéseik hogyan viszonyulnak egymáshoz. A tanulás során egy kereszt-entrópia veszteségfüggvényt alkalmaznak, ami azt jelenti, hogy az algoritmus a különböző trajektóriák közötti különbségeket elemzi a valóságos össz-visszatérések és a rangsorolt preferenciák alapján.

A T-REX modell egyik erőssége abban rejlik, hogy nemcsak az optimális demonstrációkhoz való közvetlen illeszkedésre összpontosít, hanem képes értelmezni a demonstrátor szándékait, még akkor is, ha a bemutatott trajektóriák nem minden esetben ideálisak. Míg más IRL megközelítések, például a MaxEnt IRL, azt feltételezik, hogy a bemutatott trajektóriák majdnem optimálisak, a T-REX modell azt is figyelembe veszi, hogy a demonstrációk mögött rejlő szándékok sokkal fontosabbak lehetnek, mint a puszta végrehajtásuk.

A T-REX modell tanításánál használt veszteségfüggvény alapvetően egy klasszifikáló rendszert képez ki, amely képes megjósolni, hogy melyik trajektória preferált egy másiknál, figyelembe véve a végrehajtott teljes visszatérítéseket, és összehasonlítja ezt a rangsorolt preferenciákkal. Az elméleti hátteret jól illusztrálják a Brown et al. (2019) kísérletei, amelyek azt mutatták, hogy a T-REX jobb eredményeket produkál, mint más állapot-ellenálló módszerek, mint például a GAIL vagy a viselkedésklónozási technikák, amikor komplex környezetekben, mint a MuJoCo vagy Atari, alkalmazzák.

A T-REX modell nemcsak a demonstrációk közvetlen újraalkotására épít, hanem képes a szándékok átültetésére egy paraméterezett jutalomfüggvénybe, amely aztán más állapot-akció párokra is kiterjeszthető a politika optimalizálásának során. Ennek köszönhetően előfordulhat, hogy az algoritmus a demonstrációkban elért teljesítményt meghaladó eredményeket ér el. A modell kiterjesztése különböző architektúrákban is alkalmazható, így a T-REX nemcsak a mély konvolúciós neurális hálózatokkal működhet jól, hanem más típusú megközelítésekkel is.

Fontos kiemelni, hogy a T-REX modell alkalmazása nemcsak akkor hasznos, ha a demonstrációk optimálisak, hanem abban az esetben is, ha a demonstrátor bemutatott stratégiái nem a legjobb eredményeket hozták. A modell célja, hogy megértse és modellezze a demonstrátor szándékait, hogy a jutalomfüggvény ne csupán az eredményeket kövesse, hanem képes legyen általánosítani azokat az új helyzetekre is. Ez a megközelítés lehetővé teszi a szándékok pontosabb kinyerését és a politika hatékonyabb optimalizálását, ami potenciálisan jobb eredményekhez vezethet a jövőbeli feladatokban.

Az olyan alkalmazások, mint a pénzügyi problémák modellezése, ahol a demonstrációk nem mindig optimálisak, szintén profitálhatnak a T-REX alkalmazásából. Az IRL-algoritmusok, mint a T-REX, képesek az ilyen nem optimális demonstrációk esetén is jól működni, mivel nemcsak a cselekvéseket értékelik, hanem figyelembe veszik a mögöttes szándékokat is. Ezenkívül fontos megérteni, hogy a modell sikeres alkalmazása nemcsak a demonstrációk minőségétől függ, hanem a megfelelő rangsorolás generálásának képességétől is. Ha a rangsorolás nem áll rendelkezésre, akkor a D-REX algoritmus, amely a T-REX egy továbbfejlesztett verziója, képes automatikusan rangsorolni a demonstrációkat különböző szintekű zaj hozzáadásával, lehetővé téve a sikeres alkalmazást anélkül, hogy a demonstrátor közvetlen rangsorokat adna.