Feltételezzük, hogy rendelkezünk információval az adatok osztályairól, vagyis a teljesen felügyelt osztályozás keretein belül dolgozunk. Az adatkészletünkben adottak az adatpontok , melyek egy méretű adatmátrixot alkotnak, valamint az ezekhez tartozó osztálycímkék , melyek egész számok az 1 és közötti tartományból, és jelzik, hogy az adott adatpont melyik osztályhoz tartozik. Az -edik osztály adatpontjainak indexeit -vel jelöljük, és az osztály adatpontjainak számát -vel. Az egyes osztályokhoz tartozó részmátrixokat -vel jelöljük, ahol egy méretű mátrix, amely az -edik osztály adatait tartalmazza.
A diszkriminancia elemzéshez először bevezetjük az osztályalapú kovariancia mátrixokat. Az -edik osztály átlaga
mely alapján az osztály kovariancia mátrixa a következő:
Az osztályon belüli kovariancia mátrix, , az összes osztály kovariancia mátrixának összege:
Az osztályok közötti kovariancia mátrixot -vel jelöljük, amelynek definíciója:
ahol az adatok teljes kovariancia mátrixa:
Fontos, hogy az osztályok közötti kovariancia egy súlyozott kovariancia mátrixa az osztályátlagoknak:
ahol az összes adat átlaga. Ez az összefüggés megmutatja, hogy az osztályok elválasztásáért felelős komponenseket reprezentálja.
A cél egy olyan egységvektor megtalálása, amely maximalizálja az osztályok közötti szórás (variancia) és minimalizálja az osztályokon belüli szórást. Ez a kettősség az osztályelválasztás alapja: az osztályokat egymástól távol tartjuk, miközben az egyes osztályokon belül a pontokat közelebb hozzuk egymáshoz. Ezért optimalizáljuk az alábbi hányadost, az úgynevezett osztályelválasztási mutatót:
Ha feltesszük, hogy pozitív definit, akkor ez egy általánosított Rayleigh hányados, amelynek maximális értékét és a hozzá tartozó vektort az általánosított sajátérték-probléma
megoldásai adják. A legnagyobb sajátértékhez tartozó sajátvektor az optimális irány, amely mentén az osztályok a legjobban elkülöníthetők.
Gyakran előfordulhat, hogy szinguláris vagy közel szinguláris, azaz nem invertálható vagy rossz kondíciószámú. Ez problémát okozhat a probléma numerikus megoldásában, mivel a hányados értelmezése ilyenkor nehéz. Ezt a problémát többféleképpen kezelhetjük: egyik lehetőség, hogy a mátrixot regulárizáljuk úgy, hogy hozzáadunk egy kis identitásmátrixot, vagyis , ahol egy kis paraméter. Ez a kovariancia-összehúzás (covariance shrinkage) egyszerűen megvalósítható, és kis értékek általában elegendőek a pozitív definitás biztosításához.
Alternatív megoldásként előfeldolgozhatjuk az adatokat főkomponens-analízissel (PCA), amely csökkenti az adatok dimenzióját úgy, hogy a mátrix pozitív definit legyen a csökkentett térben. Az optimális diszkrimináló irányokat sorban keressük, az első irány után az ezt követőket az előző irányokra merőleges térben maximalizálva az osztályelválasztást. Az osztályok száma miatt legfeljebb diszkrimináló irány létezik, mivel az osztályok közötti kovariancia legfeljebb rangú.
Az LDA alapvetően egy vetítési eljárás, amely az adatokat a kiválasztott diszkrimináló irányokra vetíti, így erősítve az osztályok közötti különbségeket és csökkentve az osztályokon belüli varianciát. Ez a vetítés általában megelőzi a különböző felügyelt osztályozó algoritmusokat, de önmagában is használható az osztályok megkülönböztetésére.
Fontos megérteni, hogy az LDA nem csupán egy dimenziócsökkentő módszer, hanem kifejezetten a felügyelt osztályozásra optimalizált eszköz, amely a statisztikai szórások megértésén alapul. Az osztályok belső varianciája és az osztályok közötti különbségek kiegyensúlyozása a kulcs, és ehhez a matematikai keret biztosítja az optimális megoldást.
Miért fontos a momentum a nehéz labda módszerében és hogyan befolyásolja a konvergenciát?
A nehéz labda módszerének alapja az, hogy az iterációk során figyelembe veszi a korábbi irányokat, amely lehetővé teszi a gyorsabb előrehaladást az optimális megoldás felé, különösen akkor, ha a hagyományos gradiens módszer nem elegendő. A Polyak által 1964-ben javasolt módszer úgy működik, hogy a korábbi lépés és a gradiens együttes figyelembevételével módosítja a következő iteráció irányát. A módszer formulája:
Ahol a rögzített lépésköz, pedig egy momentum paraméter. Az iteráció során figyelembe vesszük a korábbi lépés irányát, , és ezt kombináljuk a gradiens negatív irányával, . A módszer lényege, hogy az előző irányt használva csökkenti a "bouncing" hatást, amely a nagy lépésközökkel végzett gradiens módszer alkalmazásakor tapasztalható. Az így elért javulás nem csupán a gyorsabb előrehaladást jelenti, hanem a konvergencia ütemének növelését is.
Ha a hagyományos gradiens módszert nézzük, a nagy lépésközökkel végzett iterációk gyakran "visszapattannak", ami a minimális pont felé történő előrehaladást megakadályozza. A nehéz labda módszer viszont sikeresen csökkenti ezt a hatást, és még akkor is gyorsabban halad a minimum felé, ha az előző iterációk nem tapasztalnak visszapattanást. A paraméterek, mint és , döntő szerepet játszanak a módszer hatékonyságában, és a megfelelő beállításokkal a nehéz labda módszer lényegesen gyorsabban közelíthet a megoldáshoz, mint a hagyományos gradiens módszer.
A nehéz labda módszer egyik fontos jellemzője, hogy szükség van két kezdeti feltételre: és . Általában a -et egyenlővé teszik -val, vagy -et az egyszerű gradiens módszer első lépésével választják meg. A választott paraméterek és kezdeti feltételek nagyban befolyásolják a módszer konvergenciáját, és ha nem megfelelőek, az iterációk instabilitásához vezethetnek. Ennek elkerülése érdekében az paraméter értékét szigorúan a [0, 1] intervallumban kell tartani, mivel ennek túllépése instabilitást eredményezhet, amely a konvergencia megakadályozásához vezethet.
A nehéz labda módszer akkor működik a legjobban, ha értéke közel áll 1-hez, mivel ilyenkor tapasztalható az optimális gyorsulás a konvergenciában. A túl kicsi nem hoz érdemi javulást, míg ha nagyobb vagy egyenlő 1-tel, a módszer elveszti a konvergenciát. A megfelelő paraméterek kiválasztása tehát elengedhetetlen a sikeres alkalmazáshoz.
Amikor a nehéz labda módszert alkalmazzuk egy kvadratikus függvény minimizálására, ahol , és a cél a lineáris rendszer megoldása, akkor a nehéz labda iterációs képlet a következő formát ölti:
A konvergencia sebességét ebben az esetben a következő tétel határozza meg:
Tétel: Legyen szimmetrikus, pozitív definit. Legyen a lineáris rendszer egyedüli megoldása. Ha az iterációk a nehéz labda iterációs képletet követik, és , akkor minden esetén létezik egy pozitív egész szám, amelynél minden esetén az alábbi egyenlőség teljesül:
Ez azt jelenti, hogy ha az és paraméterek megfelelően vannak beállítva, a nehéz labda módszer konvergenciája gyorsabb lesz, mint a hagyományos gradiens módszeré, amely szintén lineáris konvergenciát biztosít. A megfelelő paraméterek, különösen a értéke, azonban nagyban befolyásolják a módszer teljesítményét, és érdemes ezeket finomhangolni a problémához.
A nehéz labda módszer alkalmazása során figyelmet kell fordítani a paraméterek optimális kiválasztására, mivel ezek a konvergenciát alapvetően meghatározzák. Ha a matrica illeszkedési számának (condition number) értéke nagy, azaz a rendszer rosszul kondicionált, akkor a nehéz labda módszer jelentősen gyorsabb konvergenciát biztosíthat a hagyományos módszerekkel szemben.
Endtext
Hogyan készíthetünk tökéletes, ínycsiklandó édességeket lassú tűzhelyen?
Hogyan alakítanak a vdW heteroszerkezetek fejlettebb optoelektronikai eszközöket?
Hogyan formálták Ronald Reagan iskolai és oktatási politikái az etnikai és városi közösségek viszonyát?
A sajátos nevelési igényű tanulókra vonatkozó szövetségi oktatási szabvány bevezetésének előkészítettségi szintje a „Viktória” Kadétközponttal működő 19. számú középiskolában
A központi Elővárosi Személyszállító Vállalat Kapcsolt Vállalkozások Jegyzéke – 2023. első félév
Vizsga regisztrációs rend külföldi állampolgárok (ukrán állampolgárok) számára a MBOU „Általános Iskola № 19, speciális tantárgyi ismeretekkel” intézményében
Internetes biztonság: Emlékeztető gyerekeknek a virtuális csalókról, veszélyekről és helyes viselkedésről

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский