A gráfelmélet alapú tanulás a modern gépi tanulás egyik meghatározó irányzatává vált, különösen akkor, amikor nagy mennyiségű adat áll rendelkezésre, ám csak kevés címkézett példa ismert. A félig felügyelt tanulásban ezt a problémát úgy közelítjük meg, hogy az ismert címkéket és a címkézetlen adatokat egyaránt felhasználjuk a tanítás során, hogy jobb, megbízhatóbb modelleket kapjunk, mint pusztán a címkézett adatokkal dolgozva.

A gráfalapú megközelítésben a pontokat csomópontokként kezeljük, és közöttük éleket húzunk, melyek a pontok közötti hasonlóságot vagy távolságot reprezentálják. Ez az ábrázolás különösen hasznos, mert képes megragadni az adatok belső szerkezetét és topológiáját, amely a hagyományos vektortérbeli reprezentációkban nem mindig jelenik meg egyértelműen. Például a t-SNE és UMAP algoritmusok a magas dimenziós adatok alacsony dimenziós beágyazására szolgálnak, ahol az adatok szerkezetének megőrzése vizuális interpretációt tesz lehetővé. Ezek az algoritmusok a gráfok súlyozott élhálózatain alapulnak, ahol az élek súlyozása a pontok közötti valószínűségeket vagy távolságokat modellezi.

A t-SNE algoritmusnál a perplexity paraméter szabályozza, hogy hány „közeli” pontot veszünk figyelembe, ezáltal befolyásolva a helyi és globális struktúrák hangsúlyát. A t-SNE-ben a Gaussian alapú súlyozás helyett a nehezebb farkú t-eloszlás használata szabályozza az energiafelületet, így az algoritmus konvergenciája stabilabb és a vizualizációk informatívabbak lesznek. Az UMAP, mint a t-SNE továbbfejlesztett változata, egy új súlymátrixot alkalmaz, amely szintén egy gráf súlyain alapul, de a matematikai háttér és a veszteségfüggvény eltérő, így gyakran jobb és gyorsabb eredményeket ad.

A félig felügyelt tanulás problémájában a gráfalapú megközelítés kulcsa a „sima” címkézés elve: a címke előrejelzéseinek folyamatosan kell változniuk a pontok között, különösen a sűrű adat régiókban. Ez az asszumpció biztosítja, hogy a tanuló algoritmus a címkézetlen pontokat is felhasználva alakítja ki a döntési határokat úgy, hogy azok ne menjenek át az adatok természetes klaszterein vagy alakzatain, ezzel jelentősen javítva a predikciók megbízhatóságát.

A példaként bemutatott játékos adathalmazon a teljesen felügyelt tanuló algoritmus (például lineáris SVM) csak a két ismert címkével dolgozik, így a döntési határok nem követik az adat struktúráját, és gyakran átszelik a természetes klasztereket. Ezzel szemben a gráfalapú félig felügyelt módszer a címkézetlen pontok közelségét is figyelembe véve finomítja a döntési határt, elkerülve a klaszterek „felszeletelését” és így jobb általánosító képességet biztosít.

Az ilyen megközelítéseknek azonban komplex matematikai és számítási háttere van, amelynek megértése elengedhetetlen a helyes alkalmazáshoz. A súlymátrixok kialakítása, a gráfok szimmetrizálása, az energiafüggvények minimalizálása, valamint a gradiens alapú optimalizáció mind kulcsfontosságú elemei ezeknek a módszereknek. Fontos megjegyezni, hogy az algoritmusok eredményessége erősen függ a paraméterek helyes megválasztásától, mint például a perplexity, vagy az UMAP esetében az „a” és „b” paraméterek.

Ezen túlmenően, az entropia és a Kullback–Leibler divergencia fogalmai is központi szerepet játszanak az eloszlások közti távolságok mérésében, amely a gráfalapú beágyazások minőségét határozza meg. Az entropia tulajdonságainak, mint a konkávitás, non-negativitás és maximuma, ismerete segít az algoritmusok paraméterezésében és finomhangolásában.

Az olvasónak érdemes tudnia, hogy a gráfalapú félig felügyelt tanulás nem csupán a címkézetlen adatok hasznosítását jelenti, hanem lehetőséget teremt arra is, hogy az adatok mögötti geometriai és topológiai struktúrákat mélyebben megértsük, így az algoritmusok nemcsak prediktívek, hanem elemző eszközökké is válhatnak. Az elméleti megfontolások mellett a gyakorlati megvalósítás során a numerikus stabilitás, az inicializáció, és az iterációk számának megválasztása is kritikus tényező.

Az algoritmusok összehasonlításakor fontos a t-SNE, az UMAP és az eredeti SNE előnyeinek és hátrányainak ismerete. Mindegyik más-más megközelítést alkalmaz az adatok közötti kapcsolatok súlyozására és az energiafüggvény minimalizálására, ami különböző vizualizációs és tanulási eredményekhez vezet. Az újabb kutatások folyamatosan finomítják ezen módszerek matematikai hátterét és gyakorlati alkalmazását, így a terület rendkívül dinamikus és izgalmas.

Hogyan használjuk a teljesen összekapcsolt neurális hálókat osztályozási problémák megoldására?

A mesterséges neurális hálózatok, különösen a teljesen összekapcsolt (fully connected) modellek, kiemelkedő eszközei az osztályozási problémák megoldásának. Egy olyan feladat esetén, ahol cc osztály van, a háló kimenetének F(x)F(x) cc komponensből fog állni. Ezért a kimeneti réteg neuronjainak száma nL=cn_L = c, azaz az osztályok számával megegyező számú neuront tartalmaz. Emlékeztetve arra, hogy a címkénk egy forró vektor (one-hot) formájában van, amely az osztályokat a standard bázisvektorok formájában jelöli, az osztályozás egyszerűen a legnagyobb komponens indexének meghatározását jelenti a háló kimenetén.

A címkevektorokat egy-egy egységértékkel rendelkező elemeként képzeljük el: e1,,ecRce_1, \dots, e_c \in \mathbb{R}^c, ahol eie_i az ii-edik osztályt jelöli. Az osztályozás során az xx bemeneti adat osztályát a legnagyobb kimeneti komponens indexe határozza meg. Azonban nem szükséges, hogy a háló pontosan illeszkedjen a one-hot címkevektorokhoz, csupán annyit kell biztosítani, hogy a legnagyobb komponens helyes legyen, ami egyszerűbb feladat. Ha x1,,xmRnx_1, \dots, x_m \in \mathbb{R}^n a tanulóadatok és y1,,ymRcy_1, \dots, y_m \in \mathbb{R}^c az azokhoz tartozó one-hot címkék, akkor az egyik természetes veszteségfüggvény az alábbi formát ölti:

(F(xi),yi)=yiF(xi)\ell(F(x_i), y_i) = -y_i \cdot F(x_i)

Ez a veszteségfüggvény arra szolgál, hogy maximalizálja a F(xi)yiF(x_i) \cdot y_i skalár szorzatot, amely pontosan azt a komponensét jelenti, amely az xix_i osztályához tartozik. Azonban ez a megközelítés nem adja meg a kívánt eredményt, mivel a veszteség tetszőlegesen csökkenthető egy nagy pozitív vagy negatív konstans CC szorzásával, attól függően, hogy a veszteség előjele milyen. Ez nem vezet produktív tanuláshoz, ezért valamilyen korlátozásra van szükség.

A következő lépés egy olyan megoldás keresése, amely korlátozza a veszteséget. Az egyik lehetőség, hogy a háló kimenetének normájával osztjuk, így az új veszteségfüggvény a következőképpen néz ki:

(F(xi),yi)=yiF(xi)F(xi)\ell(F(x_i), y_i) = \frac{ -y_i \cdot F(x_i)}{\| F(x_i) \|}

Ez az ötlet jól működik a gyakorlatban, bár nem elterjedten alkalmazott. Egy másik, gyakrabban alkalmazott megoldás, hogy a háló kimenetét normalizáljuk, így az valószínűségi vektorrá alakul. Ezt a softmax függvény bevezetésével érhetjük el:

pi=eF(xi)ii=1ceF(xi)ip_i = \frac{e^{F(x_i)_i}}{\sum_{i=1}^{c} e^{F(x_i)_i}}

Ezáltal az pip_i vektor valószínűségi vektorrá válik, ahol minden komponens nem negatív és az összegük 1. Az új veszteségfüggvény az alábbi lesz:

(F(xi),yi)=yilog(pi)\ell(F(x_i), y_i) = - y_i \cdot \log(p_i)

A logaritmus és a softmax összetétele olyan veszteséget ad, amely közelebb áll az eredeti elképzelésünkhöz. A veszteség minimalizálása az első tag segítségével ugyanazt a célt szolgálja, mint az előző megközelítés, míg a második tag biztosítja, hogy a veszteség alsó korláttal rendelkezzen, így nem lehet egyszerűen csökkenteni a kimenet skálázásával.

A softmax és logaritmus kombinációjának alkalmazása, különösen a numerikus instabilitások elkerülésére, kritikus a nagy kimeneti értékeknél. Ilyen esetekben numerikusan stabil módon lehet számolni, ha az exponenciális kifejezéseket egy vezérlő változóval skálázzuk, amely elkerüli a túlcsordulást.

A hálózatok tanulásának egyik legnagyobb kihívása az, hogy hogyan szabályozzuk a tanulás mértékét és elkerüljük a túlilleszkedést (overfitting). A kísérletek során megfigyelhető, hogy még egy viszonylag kicsi hálózat is képes túlilleszkedni, ha nem megfelelően van tréningezve. Ezt szemlélteti az MNIST számjegyadatok osztályozásának példája, ahol egyetlen rejtett réteggel rendelkező neurális hálózatot alkalmaztak. A tréning és tesztelési pontosságok az edzési ciklusok előrehaladtával gyorsan növekedtek, de a teszt pontosság körülbelül 97%-ra stabilizálódott, miközben a tanulási pontosság közelítette a 100%-ot, ami arra utal, hogy a hálózat már túllépte a megfelelő tanulást és enyhén túlilleszkedett.

A tanulás további aspektusa a különböző batch méretek hatása. A mini-batch gradient descent, különösen, ha kis batch méreteket használunk, gyakran rosszabb eredményekhez vezet, mivel nem képes pontosan közelíteni a gradiens értékét. Az optimális batch méret, például 480, jobb eredményeket adott, és kevesebb túlilleszkedést mutatott hosszú távon.

Bár a neurális hálózatok kiválóan teljesítenek, még

Hogyan gyorsítható a konvergencia Newton-módszer alkalmazásával a kvadratikus közelítés segítségével?

A gradient descent módszer, amelyet a legszélesebb körben alkalmaznak optimalizálási feladatokban, gyakran lassú konvergenciát mutathat. Ennek oka, hogy a lineáris közelítés, amelyet a gradient alapú módszerek használnak, nem mindig ad elegendő információt a célfüggvény pontos leírásához. Ennek következményeként a gradient descent gyakran sok iterációt igényel ahhoz, hogy a minimumhoz közel kerüljön. Ez a probléma javítható, ha a módszert egy másodrendű Taylor-közelítéssel egészítjük ki, amely figyelembe veszi a függvény görbületét is.

A Taylor-sorozat másodrendű kifejezése segít abban, hogy pontosabb közelítést kapjunk a célfüggvény viselkedéséről, különösen akkor, amikor a függvény görbülete nem elhanyagolható. A másodrendű kifejezés alkalmazásával a Newton-módszer egy új iterációs séma formájában jelenik meg, amely a következőképpen néz ki:

xk+1=argmin(F(xk)+2F(xk)(xxk)+12(xxk)T2F(xk)(xxk))x_{k+1} = \arg \min \left( F(x_k) + \nabla^2 F(x_k) \cdot (x - x_k) + \frac{1}{2} (x - x_k)^T \nabla^2 F(x_k)(x - x_k) \right)

Ez a képlet a célfüggvény másodrendű Taylor-közelítésének minimalizálására szolgál. Az iterációk során az új értékek gyorsabban közelítik meg a minimális értéket, mivel a kvadratikus kifejezés pontosabb közelítést ad, mint a lineáris.

Erősen konvex függvények esetén a kvadratikus kifejezés elegendő ahhoz, hogy korlátozzuk az optimalizálási problémát, így nem szükséges további büntető kifejezések hozzáadása. Ennek ellenére az egyes iterációk során a Hessian mátrix előállítása és inverzének számítása nem mindig egyszerű feladat, különösen nagyméretű problémák esetén.

A Newton-módszer gyorsan konvergál, ha a függvény másodrendű deriváltja (Hessian) jól viselkedik, és a kezdeti becslés közel van a keresett minimumhoz. A kvadratikus konvergencia azt jelenti, hogy az iterációk során az hiba gyorsan csökken, azaz az iterációk egyre pontosabb eredményeket adnak. Minden egyes lépés során a pontoság olyan mértékben javul, hogy az eredmény gyorsan eléri a kívánt szintet.

Például, ha egy pozitív valós szám négyzetgyökét szeretnénk meghatározni, a Newton-módszert alkalmazva az iterációk gyorsan elérik a négyzetgyököt, és a konvergencia kvadratikus lesz. Ez a közelítés Heron módszerének is ismert, bár a matematikusok már az ókorban alkalmazták ezt a típusú iterációs eljárást.

Newton-módszert alkalmazhatunk kvadratikus függvények esetén is, ahol a célfüggvény alakja különösen egyszerű. Például egy olyan függvény, mint F(x)=12xTHxfTx+cF(x) = \frac{1}{2} x^T H x - f^T x + c, ahol HH egy pozitív definit mátrix, egyetlen iterációval minimalizálható, mivel a függvény másodrendű deriváltja állandó. Azonban a kvadratikus optimalizálás megoldása gyakran nem igényel Newton-módszert, hiszen már eleve egy lineáris rendszer megoldásaként jelenik meg.

A Newton-módszer konvergenciáját a következő tétel fogalmazza meg:

Tétel: Ha FF függvény μ\mu-erősen konvex és Lipschitz-folytonos a Hessian, akkor a Newton-módszer iterációi kvadratikusan konvergálnak a minimumhoz, ha a kezdőérték közel van a minimális ponthoz.

Ez a kvadratikus konvergencia azt jelenti, hogy minden egyes iteráció után az hiba négyzetes mértékben csökken, így a közelítés rendkívül gyorsan javul. Azonban fontos megjegyezni, hogy Newton-módszer alkalmazásához a kezdeti becslésnek közel kell lennie a minimális értékhez. Ha túl messze van a kezdeti érték a minimumtól, a módszer nem fog konvergálni, vagy a konvergencia nagyon lassú lesz. Ezért a Newton-módszer hatékony, de a megfelelő kiindulási pont kiválasztása kulcsfontosságú.

A Newton-módszert gyakran adaptív időlépés bevezetésével módosítják, amely segít biztosítani a globális konvergenciát, még akkor is, ha a kezdeti becslés nem elég pontos. Az adaptív időlépés biztosítja, hogy a módszer minden esetben konvergáljon, bár sok esetben sokkal több lépés szükséges ahhoz, hogy a kvadratikus konvergencia területére belépjünk.

A Hessian mátrix inverzének kiszámítása, amely szükséges a Newton-módszer alkalmazásához, gyakran komoly számítási igényeket támaszt. Ha a számítás túl drága vagy instabil, más módszerek, például az ún. kubikusan korlátozott Newton-módszerek, alkalmazhatók. Ezen módszerek segíthetnek a Hessian inverzének közvetlen számításában felmerülő problémák kezelésében.