A rögzített horizontú módszer, amely a piaci eseményeket előre meghatározott időtávokon belül vizsgálja, széles körben elterjedt a pénzügyi irodalomban. A módszer lényege, hogy egy adott időszakon belül meghatározza a várható piaci mozgásokat, és osztályozza azokat három lehetséges kategóriába: veszteség, semleges vagy nyereség. Azonban bár egyszerűsége miatt kedvelt, számos olyan gyakorlatbeli és statisztikai problémát vet fel, amelyeket figyelembe kell venni, ha a pénzügyi előrejelzések sikerességét szeretnénk maximalizálni.

Az első problémát a heteroszkedasticitás jelenti, amelyet az intranapi szezonális aktivitási mintázatok okoznak. A pénzügyi adatokban a volatilitás gyakran nem konstans, hanem időben változik. Ha rögzített küszöböt (τ) alkalmazunk egy heteroszkedasztikus adathalmazon, a címkézés eredményeként a szezonális hatások is szerepet kapnak, amelyek a címkék eloszlásának nem-stacionaritásához vezethetnek. Például, ha a címke nullát mutat a nyitáskor vagy záráskor, az jelentősebb információval bírhat, mint ugyanaz a címke délben, amikor a piacon kevésbé markáns mozgások jellemzőek.

A második problémát az jelenti, hogy a rögzített horizontú módszer teljesen figyelmen kívül hagyja azokat az intermedier visszatérítéseket, amelyek az egyes időszakok között történnek. A valós piaci helyzetekben a portfóliómenedzserek gyakran a profitvételi és stop-loss szintekhez igazítják a pozícióikat, amelyeket saját maguk határoznak meg, vagy a kockázati osztályok szabályoznak. A rögzített horizontú címkék nem tükrözik megfelelően a valódi befektetési helyzeteket, mivel nem veszik figyelembe a pozíciók közötti dinamikát.

Harmadik problémát az jelenti, hogy a befektetők ritkán kíváncsiak arra, hogy egy visszatérítés meghaladja-e egy adott küszöböt pontosan a rögzített időpontban. Sokkal inkább az a fontos, hogy előre jelezzük, hogy mikor és hogyan fog a piac egy meghatározott időn belül reagálni, és hogyan léphetünk be vagy ki a piacon a legoptimálisabb pillanatokban.

Ezek a problémák mind olyan területek, amelyeket figyelembe kell venni a pénzügyi előrejelzési modellek fejlesztésekor. Ennek megoldására javasolt a hárombarriéres módszer alkalmazása.

A hárombarriéres módszer, amely szorosabban illeszkedik a valódi kereskedési stratégiákhoz, három különböző kimenetet használ a pozíciók sikerességének vagy kudarcának meghatározásához: (1) a profitcél elérése, (2) a stop-loss határ elérése, (3) a maximális időintervallum elérése. Ez az eljárás valós helyzeteket modellez, és lehetővé teszi a pontosabb címkézést, hiszen nem csupán az időpontot, hanem a teljes pozíció útját is figyelembe veszi. Amikor a profitcél először éri el a barriert, a címke 1, amikor a stop-loss-t, akkor -1, míg ha a maximális időintervallumot lépjük túl, a címke 0. Ez lehetőséget ad arra, hogy a piaci mozgásokat valóban a pozíciók fejlesztésére alapozva értékeljük, nem csupán egy adott időpillanatban.

Az egyik előnye ennek a módszernek, hogy az értékelés figyelembe veszi az időszakon belüli változásokat, és a pozíciók valós piaci dinamikáját tükrözi. A módszer a pénzügyi adatok viselkedését is figyelembe veszi, például a piaci szezonális ingadozásokkal kapcsolatos hatásokat, amelyeket a rögzített horizontú módszer nem kezel megfelelően.

A következő lépés lehet a trendek azonosítása, ami egy másik megközelítést jelent a címkézéshez. A trendek skanálásával nem szükséges előre meghatározott küszöböket alkalmazni. Az alapgondolat itt az, hogy a piaci mozgások trendjeit azonosítjuk, és engedjük őket futni, amíg azok tartanak. Ebben az esetben egy trendet akkor tekintünk sikeresnek, ha egy adott időszakban a piaci adatok alapján világosan felfedezhető egy egyértelmű irányvonal. Az alkalmazott módszer itt egy lineáris trend modell alapján számolja ki az úgynevezett t-értéket, amely azt jelzi, hogy a legnagyobb szignifikanciájú trend milyen erővel van jelen a piacon.

Az ilyen típusú trend-ek a pénzügyi adatokra alapozott címkézésben különösen hasznosak lehetnek, hiszen a trendek azonosítása és nyomon követése közvetlenül befolyásolhatja a kereskedési döntéseket. Ha egy erős trendet észlelünk, akkor a pozíciók kinyitására vagy zárására vonatkozó döntések is jobban alapozhatók, nem csupán a meghatározott határértékekre.

Az ilyen típusú fejlesztések elengedhetetlenek azok számára, akik a pénzügyi piacokon dolgoznak, mivel lehetőséget adnak a valódi piaci helyzetekhez való alkalmazkodásra, miközben a statisztikai eszközök alkalmazásával pontosabban modellezhetjük a piaci viselkedést.

Miért nem egyezik meg a tesztelt beteg valószínűsége az α és β értékekkel?

A betegségek diagnosztizálása és az egészségügyi tesztek értékelése során gyakran találkozunk olyan kérdésekkel, mint hogy mi a valószínűsége annak, hogy egy pozitívan tesztelt beteg valóban beteg? A válasz nem olyan egyszerű, mint hogy „1 − α” vagy „1 − β”, amit sokan elsőre gondolnának. A valóságban a tesztelt személy valószínűsége, hogy valóban beteg, sokkal alacsonyabb, mint amit ezek az értékek sugallnak, és ezt a valószínűséget számos tényező befolyásolja, amelyek a teszt minőségét, a betegség előfordulásának valószínűségét és az adott teszt hibaszázalékait is magukban foglalják.

Az α és β hibák a statisztikai tesztelésben kulcsfontosságú szerepet játszanak. Az α hiba a hamis pozitív eredményeket jelenti, míg a β hiba a hamis negatív eredményeket. Ezek a hibák befolyásolják a teszt megbízhatóságát, de önmagukban nem adnak teljes képet arról, hogy egy pozitív teszt valóban betegségre utal-e. A Bayes-tétel és a valószínűségi elmélet segíthet megérteni a teszteredményeket. A Bayes-tétel szerint a tesztelt személy valószínűsége, hogy valóban beteg, figyelembe veszi a teszt érzékenységét (a valóban beteg betegek közül hányat találunk meg) és a teszt specifitását (a nem beteg személyek közül hányat zárunk ki). A téves pozitív és téves negatív eredmények mind szerepet játszanak a végső valószínűség meghatározásában.

Egy egyszerű példával élve, ha egy betegség előfordulásának valószínűsége nagyon alacsony, akkor még egy viszonylag pontos teszt is nagy számú hamis pozitív eredményt adhat. Így, még ha a teszt nagyon érzékeny és specifikus is, a pozitív eredmény mellett a beteg valódi betegség valószínűsége meglepően alacsony maradhat.

Tegyük fel, hogy egy beteg kétszer is pozitív tesztet kapott különálló teszteken. Hogyan változik ennek a betegnek a valódi betegséghez való kapcsolódásának valószínűsége? Az ismételt tesztelés növeli a valószínűséget, hogy a beteg valóban beteg, de a valószínűség növekedése nem lineáris. Ha mindkét teszt megfelelően van beállítva, az ismétlés segíthet csökkenteni a téves pozitív eredmények számát, de még mindig fontos figyelembe venni a betegség előfordulásának alapértelmezett valószínűségét.

A tesztek eredményeinek értékelésekor tehát elengedhetetlen, hogy figyeljünk arra, hogy a teszt valószínűségi eredményei hogyan befolyásolják a végső diagnózist, és hogy a betegek valódi állapotát mi határozza meg. A betegségek előfordulásának és a teszt eredményeinek figyelembevételével a legpontosabb diagnózist érhetjük el.

Fontos, hogy a tesztelési eljárások folyamatosan fejlődnek, és új módszerek segíthetnek abban, hogy a valószínűségi elméletek jobban illeszkedjenek a gyakorlati alkalmazásokhoz. A jövőben a tesztelési rendszerek további finomítása révén várhatóan pontosabb diagnózisok lesznek elérhetők, amelyek nagyobb biztonsággal képesek megkülönböztetni a valós betegeket a tévesen diagnosztizált személyektől.

Hogyan hat a jelek és a strukturált adatok a portfóliók instabilitására?

A jelek és az adatok strukturális jellemzői fontos szerepet játszanak a portfóliók kockázatkezelésében, különösen a Markowitz-féle optimális portfólióképzés során. A szórás-átlag optimális portfólióképzés egyik legnagyobb kihívása a kovariancia instabilitása, amely a korrelációs mátrix és a különböző pénzügyi eszközök közötti kapcsolat alapján alakul ki. Ez az instabilitás nemcsak a hagyományos adatmintavételi problémákból, hanem az adatok belső struktúrájából is származhat. A megfelelő megértéshez és kezeléshez a jelek és azok kölcsönhatása, valamint az egyes csoportok közötti kapcsolatok figyelembevétele szükséges.

A kovariancia instabilitás forrása gyakran a zajtól eltekintve az adatok szerkezetében rejlik. Ezt az instabilitást nem lehet csökkenteni további megfigyelések gyűjtésével, mivel a struktúrák – mint a korrelációs klaszterek – önállóan hozzájárulnak a probléma fokozódásához. Ezen instabilitás közvetlen következménye, hogy a Markowitz-féle megoldás nem mindig képes megbízható eredményeket adni a portfólióképzés során, mivel az optimális eszközallokációk gyakran nem stabilak, különösen olyan piacokon, ahol az eszközök közötti korrelációs struktúrák nem lineárisan változnak.

A korrelációs mátrixok különböző struktúrái, mint például a blokkszerkezetek, jelentős hatással vannak az optimális portfólióképzés eredményére. A blokkszerkezetekben egy-egy alrendszer (eszközcsoport) erősebben korrelál a saját tagjaival, mint a teljes piaci univerzummal. Ez azt jelenti, hogy az egyes klaszterek dominanciája az eigenértékek szétválásához vezethet, ami növeli az eigenértékek és a kovariancia mátrix kondíciószámát, tehát instabilitást okoz. A magas kondíciószámú korrelációs mátrixok megnövekedett kockázatot jelentenek, mivel az instabilitás nemcsak az eszközkészletre, hanem az egész portfólióra kiterjedhet. Például, ha egy klaszter nagyobb súllyal szerepel, akkor a teljes portfólió kockázata magasabbá válhat, még akkor is, ha a többi eszköz viszonylag stabil marad.

A legjobb megoldás erre az instabilitásra az, ha külön-külön optimalizáljuk a domináns klasztereket, így elkerülhetjük, hogy a domináns klaszterek hatása elvonja az egész portfólió stabilitását. Azonban nem minden esetben lehetséges az egyes klaszterek teljes szeparálása, mivel a portfóliók összeállításakor az eszközök közötti kapcsolatokat is figyelembe kell venni. Ennek kezelésére új algoritmusokat, például a "nested clustered optimization" (NCO) módszert alkalmazzák, amely lehetőséget ad arra, hogy a különböző klaszterek eltérő súlyozása révén kezeljük a portfóliók instabilitását.

A NCO algoritmus a klaszterek szétválasztásával és az egyes klaszterekre vonatkozó optimális allokációk meghatározásával javítható a Markowitz-féle portfóliók stabilitása. Az algoritmus először a korrelációs mátrixot csoportosítja, majd a különböző klaszterek belső súlyozását optimalizálja, figyelembe véve a denoising (zajcsökkentés) technikákat, hogy pontosabb becsléseket kapjunk az eszközök közötti kapcsolatokra. Az NCO nemcsak a klasszikus optimális portfólióképzés problémáit oldja meg, hanem segít az új, strukturálisan stabilabb megoldások kialakításában is.

A NCO algoritmus lépései közé tartozik a korrelációs mátrix csoportosítása, amely az optimális klaszterszám meghatározását is magában foglalja. Ezt követi a csoportok belső súlyozásának optimalizálása, amely minimális varianciájú portfóliókalkulációval történik. Az algoritmus rugalmas, mivel bármilyen eloszlású vagy korlátozásokkal rendelkező korrelációs mátrixra alkalmazható. Az optimális klaszterek belső súlyozásának meghatározásához egy minimális varianciájú portfólióképzés szükséges, amely a belső klaszterek közötti optimális eszközelosztást biztosítja. Ezen eljárások segítségével elérhetjük a stabilabb és pontosabb eszközallokációkat, amelyek figyelembe veszik a strukturált adatok és a pénzügyi jelek által okozott instabilitást.

A klaszterek közötti optimális súlyozás elősegíti, hogy az egész portfólió stabil maradjon, még akkor is, ha a klaszterek közötti kapcsolatok erősen eltérőek. Az algoritmus beépítése a hagyományos Markowitz-féle portfólióoptimalizálásba lehetőséget ad arra, hogy a piaci zűrzavarokat és a jelek alapú instabilitást is figyelembe vegyük.

Miért nem elegendő csupán az ár-előrejelzés a pénzügyi gépi tanulásban?

A pénzügyi gépi tanulás (ML) területén elterjedt tévhit, hogy a legfőbb célja csupán az ár-előrejelzés. Bár az eszközök árazása kétségtelenül jelentős vállalkozás, túlbecsült jelentőséggel bírhat, ha azt tekintjük az egyedüli vagy legfontosabb célunknak. Az ár-előrejelzés előnye, bár fontos, csupán egy szükséges, de teljesen elégtelen feltétel a mai rendkívül versenyképes piacokon való sikerhez. Más, ugyanolyan fontos területek is léteznek, mint például az adatok feldolgozása, portfólióépítés, kockázatkezelés, a struktúrális törések észlelése, fogadási méretezés és a hamis befektetési stratégiák detektálása – hogy csak néhányat említsünk.

Vegyük például a póker világbajnokságának résztvevőit. A kártyákat véletlenszerűen keverik és osztják ki. Az adott játékosok nyilvánvalóan nem képesek előre megjósolni, hogy milyen lapokat kapnak más játékosok, és bár e tudás hiánya jelentős, az évről évre ugyanazok a játékosok kerülnek a legjobb helyekre. Ennek egyik oka, hogy a fogadási méretezés fontosabb, mint a kártyák előrejelzése. Amikor egy játékos jó kezet kap, értékeli annak a valószínűségét, hogy egy másik játékos erős lapot tart, és ennek megfelelően stratégiai fogadást tesz. Hasonlóképpen, a befektetők nem képesek előre megjósolni az árakat, de képesek észlelni, ha egy ár rendellenes szinten alakul, és ennek megfelelően fogadni. Nem azt mondom, hogy a fogadási méretezés a sikeres befektetés kulcsa, csupán azt, hogy legalább olyan fontos, mint az ár-előrejelzés, és hogy a portfólióépítés talán még ennél is fontosabb.

A gépi tanulás algoritmusok széles választékának megvitatása nem célja ennek a fejezetnek. Két fő oka van annak, hogy miért nem foglalkozom ezzel. Először is, már számos kimerítő tankönyv foglalkozik a pénzügyi szektorban alkalmazott gépi tanulás algoritmusokkal, és nem szükséges újabbat írni. Kiváló hivatkozások közé tartozik James és társai (2013), Hastie és társai (2016), valamint Efron és Hastie (2016). Másodszor, a pénzügyi adatkészletek sajátos nehézségekkel rendelkeznek, és a projekt sikere vagy kudarca nagymértékben azon múlik, hogy mennyire értjük meg ezeket. Miután megfelelően kiválasztottuk a jellemzőket és helyesen meghatároztuk a problémát, az algoritmus kiválasztása viszonylag másodlagos szerepet kap.

Ezt illusztrálhatjuk egy példával. Képzeljünk el két algoritmust: az egyik 1-es változást előrejelez, de a tényleges változás 3 lesz, míg a másik -1-et jelez előre, de a tényleges változás 1. Mindkét esetben az előrejelzés hibája 2, de a pénzügyi szektorban nem vagyunk közömbösek a két eset között. Az első algoritmus előrejelzése esetén a befektető az előre jelzett profit egyharmadát realizálja, míg a második esetben a befektető veszteséget szenved el, amely megegyezik az előre jelzett profittal. A rossz előrejelzés nagysága lehetőséget veszíteni, de ha a kimenet előrejelzett jele téves, az valódi veszteség. A pénzügyi befektetők sokkal nagyobb büntetést szabnak ki a tényleges veszteségekre, mint a lehetőségvesztésre. Ezért sokszor a kimenet jele fontosabb, mint annak nagysága, és ez indokolja a klasszifikáló algoritmusok előnyben részesítését a regressziós módszerekkel szemben a pénzügyekben.

A pénzügyi gépi tanulás egy speciális terület, amely saját problémákat vet fel, és a problémák helytelen megfogalmazása gyakran vezet a legnagyobb hibákhoz. A gépi tanulás nem egy fekete doboz, és nem szükségszerűen hajlamos túltanulásra. A klasszikus statisztikai módszerekhez képest a gépi tanulás előnyei közé tartozik, hogy (1) a modell kimeneti előrejelzésére összpontosít, a varianciával szembeni döntés helyett, (2) komputációs módszereket alkalmaz, hogy elkerülje a potenciálisan irreális feltételezésekre való támaszkodást, (3) képes komplex specifikációk "tanulására", beleértve a nemlineáris, hierarchikus és nem folytonos interakciókat is, magas dimenziós térben, és (4) képes elválasztani a változók keresését a specifikáció keresésétől, mindezt robusztusan kezelve a multikollinearitást és más helyettesítési hatásokat.

Az ilyen típusú elemzésekhez nem elegendő csak a gépi tanulás algoritmusokat alkalmazni, hanem figyelmet kell fordítani a pénzügyi elméletek pontos megértésére is. A sikeres befektetési stratégiák egy adott elmélet konkrét megvalósításai. Egy olyan befektetési stratégia, amely nem rendelkezik elméleti indoklással, valószínűleg téves lesz. Ezért fontos, hogy a kutatók inkább az elméletek fejlesztésére összpontosítsanak, mintsem a potenciális stratégiák visszatesztelésére.