A klaszterezési problémák során gyakran előfordul, hogy nem ismerjük előre a klaszterek számát, ami a kutatás egyik legnagyobb kihívása. A jól ismert k-means algoritmus gyakran alkalmazott módszer a klaszterek kialakítására, ám ennek van néhány jelentős hátránya. Az egyik legnagyobb probléma, hogy a klaszterek számát előre kell meghatározni, és ez nem mindig egyszerű feladat. A másik, hogy az algoritmus véletlenszerű inicializálást alkalmaz, így a végeredmény is véletlenszerű lehet, ami a gyakorlati alkalmazásban nem kívánt variabilitást eredményezhet. Az alábbiakban bemutatjuk, hogyan lehet optimalizálni a k-means algoritmust és hogyan találhatjuk meg az optimális klaszterek számát, elkerülve ezeket a hátrányokat.

Az egyik lehetőség, hogy a távolságmátrix reciproka alapján végezzünk biclusterizációt. Ha a jellemzők száma jelentősen meghaladja az observációk számát, akkor a magas dimenziók következményeként a klaszterezés problémássá válhat: az adatpontok közötti tér nagy része üres lesz, így nehéz lesz csoportokat azonosítani. Ennek a problémának a megoldásaként a data-mátrixot alacsony dimenzióba vetíthetjük, hasonlóan ahhoz, ahogyan a PCA (főkomponens-analízis) csökkenti a jellemzők számát. Az alacsony dimenziós térbe történő vetítés után már könnyebben azonosíthatók a klaszterek. Egy alternatív megoldás, hogy a közelségi mátrixot vetítjük alacsony dimenziós térbe, és ezt új X mátrixként használjuk. Az eljárás ugyanaz, mint a PCA alkalmazása, de itt a közelségi mátrixra összpontosítunk.

A dimenziócsökkentés és az adatállomány előkészítése kulcsfontosságú, hogy a klaszterek azonosítása hatékonyan megtörténjen. Ha az X mátrix túl nagy, akkor célszerű csökkenteni annak dimenzióját. Az X mátrixot ortogonális módon vetíthetjük le egy kisebb dimenziójú térbe, ahol a dimenziók száma megegyezik azoknak az eigenértékeknek a számával, amelyek meghaladják a küszöbértéket (λ+). A csökkentett mátrix (Xe) nagyobb jel-zaj arányt biztosít, ezáltal könnyebbé válik a csoportok felismerése.

Az optimális klaszterek számának meghatározása számos módszerrel lehetséges. Az egyik legnépszerűbb technika az „elbow method”, amely akkor áll meg, amikor az egyes új klaszterek által magyarázott variancia növekedése már nem haladja meg az előre meghatározott küszöbértéket. Azonban ennek a módszernek van egy jelentős hátránya: a küszöbértéket gyakran önkényesen választják meg. Ennek elkerülésére az ONC algoritmus, amely López de Prado és Lewis (2018) munkájában szerepel, egy másik lehetséges megoldást kínál. Az ONC algoritmus a "silhouette" módszert alkalmazza, amely segít az optimális klaszterek számának meghatározásában, figyelembe véve a csoportok közötti távolságokat és azokon belüli koherenciát.

A klaszterek számának meghatározása nemcsak a módszertől függ, hanem attól is, hogy milyen típusú adatokat kezelünk. Ha az adatok közötti kapcsolatokat, például korrelációs mátrixot használunk, a klaszterezés különleges szempontokat igényel. Az adatok közötti távolságot nemcsak egy egyszerű mérőszám alapján kell meghatározni, hanem figyelembe kell venni a különböző korrelációkat is, ami robusztusabbá teszi az elemzést az outlierek jelenléte ellen. A korrelációs klaszterezés lehetőségei közé tartozik a távolságmátrix közvetlen számítása a ρij (korrelációs koefficiens) alapján, vagy a távolságok számítása a (1 - ρij) függvényében.

A k-means algoritmus alkalmazása mellett más lehetőségek is vannak. Egy alternatíva a hierarchikus klaszterezési algoritmusok alkalmazása, amelyeknél a klaszterezés a dendrogram távolságán alapul, és a legjobb minőségű felosztás kiválasztására törekszenek. Azonban a k-means mellett, egy fontos módosítást alkalmazhatunk, hogy kiküszöböljük annak hátrányait. A k-means algoritmushoz bevezethetjük az objektív függvényt, amely lehetővé teszi az optimális K érték meghatározását. A leggyakrabban alkalmazott mutató a „silhouette” együttható, amely az intraklaszter és interklaszter távolságok összehasonlításával ad képet a klaszterek minőségéről.

Az optimális klaszterek számának meghatározása nemcsak matematikai eljárás, hanem komoly gyakorlati jelentőséggel bír, különösen a pénzügyi elemzések és a különböző típusú időbeli adatok klaszterezésénél. A megfelelő algoritmus kiválasztása és a dimenziók csökkentése mellett érdemes figyelembe venni a kliens adatait, mivel ezek az elemzés irányát és eredményét jelentősen befolyásolják. Az adat-minőség és a rendelkezésre álló erőforrások mellett a megfelelő klaszterezési technikák kiválasztása kulcsfontosságú ahhoz, hogy az eredmények megbízhatóak és érdemi információkat szolgáltassanak a további döntéshozatali folyamatokhoz.

Hogyan alkalmazhatjuk a gépi tanulást a pénzügyekben és közgazdaságtanban?

A pénzügyi adatok elemzése és a közgazdaságtani modellek előrejelzése évtizedek óta hagyományosan statisztikai módszereken alapul, amelyek a különböző gazdasági változók közötti kapcsolatok megértésére összpontosítanak. Azonban a gépi tanulás (ML) módszerei gyorsan fejlődnek, és egyre inkább előtérbe kerülnek ezen a területen. Az ML technikák, különösen a pénzügyi adatok elemzése során, jelentős előnyöket kínálnak, mivel képesek az adatok komplex mintáit automatikusan felismerni, anélkül hogy előzetes struktúrák vagy feltételezések szükségesek lennének.

A gépi tanulás alkalmazása az ökonometriában és pénzügyekben számos előnyt kínál, de a hagyományos statisztikai módszerekkel való összehasonlítás során is egyre több kérdés merül fel. Mi a különbség a gépi tanulás és a hagyományos ökonometriás regressziók között? Hogyan illeszkednek a gépi tanulás alapú módszerek a pénzügyi elemzésekbe, és hogyan érik el az előrejelzések pontosabb eredményeit, mint a hagyományos statisztikai eszközök?

A hagyományos ökonometriai modellek, amelyek leginkább a változók közötti előre meghatározott kapcsolatokat és függőségeket feltételezik, jól működnek, ha biztosak vagyunk abban, hogy a modell jól reprezentálja az adatok struktúráját. Azonban, ha az adatok komplexek, nem lineárisak, vagy hierarchikus kapcsolatokat tartalmaznak, a hagyományos modellek, mint a logit vagy probit modellek nem biztos, hogy sikeresen előrejeleznek. Például, ha egy kutató azt szeretné megbecsülni, hogy egy Titanic túlélője volt-e a férfiak, életkor vagy osztály alapján, egy logit modell nem fog megfelelő előrejelzést adni, mivel nem képes figyelembe venni azokat az összetett interakciókat, amelyek a túlélés esélyeit befolyásolták. Ezzel szemben egy egyszerű osztályozó fa algoritmus képes megfelelően azonosítani a hierarchikus struktúrákat, és javítja az előrejelzés pontosságát.

A gépi tanulás másik nagy előnye, hogy képes komplex adatstruktúrákat kezelni, amelyek a hagyományos statisztikai módszerek számára nehezen értelmezhetőek. Az ilyen típusú adatokat, mint például a szövegek, képek, hangfelvételek vagy a szatellit felvételek, nem könnyű numerikus vagy kategóriás változókként ábrázolni. A gépi tanulás ezen adatok értelmezésére is képes, így új lehetőségeket nyit meg a gazdasági és pénzügyi elemzések számára, ahol a hagyományos statisztikai technikák nem elegendőek.

A gépi tanulás nem csupán az adatok elemzését segíti elő, hanem az adatok közötti összefüggések felismerésére is kiváló eszközként szolgál. Mivel a gépi tanulás algoritmusai képesek az adatokból saját struktúrákat kinyerni, anélkül hogy előzetes feltételezéseket kellene tenni, jelentős előrelépést jelenthetnek a pénzügyi modellek fejlődésében. Az ilyen modellek különösen fontosak lehetnek a befektetési döntések meghozatalában, mivel képesek az összetett és dinamikus piaci környezetekben is releváns mintákat és előrejelzéseket találni. Az ML rendszerek tehát nemcsak a meglévő gazdasági és pénzügyi adatok értelmezésére adnak új lehetőséget, hanem a jövőbeli események előrejelzésére is.

A gépi tanulás és a hagyományos ökonometria között nincs éles választóvonal. A két megközelítés gyakran jól kiegészíti egymást, mivel az ökonometria erőssége az empirikus megfigyelésből származó elméletek tesztelése, míg a gépi tanulás képes olyan összefüggéseket és mintákat feltárni, amelyek az ökonometriában nem mindig kerülnek előtérbe. Ezt a két megközelítést akár kombinálni is lehet, például a félig paraméteres módszerek alkalmazásával, ahol egy regresszió ötvözi az ökonometriás változókat a gépi tanulásból származó kontrollváltozókkal. Az ilyen megközelítés segíthet az elhagyott regresszorok által okozott torzítások kezelésében.

Az ML alkalmazásával kapcsolatos legnagyobb előnyök közé tartozik, hogy képesek vagyunk hatékonyan kezelni az egyre bővülő és sokszor strukturálatlan adatokat, valamint a pénzügyi rendszerek komplexitását. Az ML módszerek nemcsak az adatok elemzésére, hanem azoknak a döntésekhez kapcsolódó hatékonyabb modellezésére is szolgálnak, és ezen keresztül új szintre emelik a pénzügyi előrejelzéseket.

A gépi tanulás alkalmazása tehát lehetőséget ad arra, hogy a pénzügyek és közgazdaságtan területén a kutatók és elemzők számára még precízebb és hasznosabb modelleket alkossunk. Azonban nem szabad elfelejteni, hogy a technológia csak akkor képes valódi előrelépést hozni, ha megfelelő adatok állnak rendelkezésre, és az algoritmusok megfelelően vannak tanítva és alkalmazva. Az adatok minősége és a megfelelő modellválasztás kulcsfontosságú tényezők maradnak a gépi tanulás sikeres alkalmazásában.