W tradycyjnej analizie statystycznej, zwłaszcza przy użyciu p-wartości, badacze często zakładają, że zmienne objaśniające mają klarowny wpływ na analizowany wynik. Jednakże, jak wykazano w przypadku klasycznych metod, w praktyce pojawiają się liczne ograniczenia związane z takimi założeniami. Istnieje więc potrzeba wsparcia klasycznych metod przez nowoczesne techniki obliczeniowe, które mogą przezwyciężyć te ograniczenia, dając pełniejszy obraz rzeczywistości.

Przykład numeryczny, który przedstawiamy, dotyczy problemu klasyfikacji binarnej z udziałem czterdziestu zmiennych objaśniających. Zmiennymi tymi są: pięć informacyjnych, trzydzieści zmiennych redundantnych oraz pięć zmiennych szumowych. W praktyce zmienne informacyjne są tymi, które są używane do generowania etykiet, zmienne redundantne są wynikiem dodania szumu Gaussa do losowo wybranej zmiennej informacyjnej, a zmienne szumowe nie mają wpływu na etykiety. Chociaż klasyczna analiza, np. regresja logistyczna, wylicza p-wartości dla tych zmiennych, wyniki często okazują się mylące. Przykładowo, zmienne szumowe, które nie wpływają na etykiety, mogą być klasyfikowane jako względnie ważne, podczas gdy zmienne informacyjne mogą zostać uznane za mniej istotne. To tylko jeden z wielu przykładów, gdzie klasyczne p-wartości nie są wystarczającym narzędziem do pełnej oceny istotności zmiennych.

W kontekście finansów, dane zazwyczaj charakteryzują się dużą współliniowością, wynikającą z wspólnych czynników ryzyka, które dzielą różne segmenty rynku. Na przykład zmienne takie jak rynek, sektor, ocena, wartość czy momentum mogą być ze sobą silnie skorelowane, co utrudnia dokładną ocenę wpływu pojedynczych zmiennych na wynik. W takim przypadku, badacze finansowi nie powinni polegać jedynie na p-wartościach, lecz także zapoznać się z dodatkowymi metodami analizy istotności zmiennych, które są mniej podatne na takie ograniczenia.

Metody związane z uczeniem maszynowym, takie jak ocena istotności cech w modelach opartych na drzewach decyzyjnych, oferują alternatywę dla klasycznych p-wartości. Przykładem jest koncepcja zwaną średnią redukcją nieczystości (Mean Decrease Impurity, MDI), która ocenia istotność zmiennej objaśniającej na podstawie jej zdolności do redukcji nieczystości w drzewie decyzyjnym. W praktyce, każda zmienna jest oceniana na podstawie jej wpływu na poprawę "czystości" podziału w węzłach drzewa. Większa redukcja nieczystości wskazuje na większą istotność zmiennej w procesie klasyfikacji lub regresji.

Średnia redukcja nieczystości jest miarą, która jest stosunkowo łatwa do interpretacji, a jej wynik jest ograniczony w przedziale od 0 do 1, gdzie sumy wszystkich wartości MDI dla wszystkich zmiennych zawsze wynoszą 1. Ponadto, gdy używamy algorytmów opartych na wielu drzewach, takich jak lasy losowe, możemy uzyskać średnią wartość MDI dla każdej zmiennej, co pozwala na lepsze oszacowanie jej istotności w kontekście całego modelu. Takie podejście może także pomóc w ocenie zmienności ważności zmiennych w przypadku zastosowania wielu drzew, co stanowi istotną wskazówkę w procesie modelowania.

Pomimo zalet metody MDI, należy pamiętać, że w obecności zmiennych redundantnych, mogą występować efekty substytucji, gdzie pewne zmienne redundantne mogą wydawać się bardziej istotne niż inne, chociaż nie mają one rzeczywistego wpływu na wynik. Problem ten jest szczególnie widoczny w przypadku modeli klasyfikacyjnych opartych na drzewach decyzyjnych, a także w bardziej złożonych modelach zespołowych, takich jak lasy losowe.

Warto zwrócić uwagę, że analiza istotności zmiennych to tylko jeden aspekt złożonego procesu modelowania. Właściwe zrozumienie, jakie zmienne mają rzeczywisty wpływ na wynik, wymaga nie tylko zastosowania odpowiednich technik, ale także głębokiej analizy charakterystyki danych, w tym zrozumienia możliwych korelacji i interakcji między zmiennymi. Przyjrzenie się takim technikom, jak wartości Shapleya czy efekty lokalne, może dodatkowo zwiększyć interpretowalność i dokładność wyników modeli.

Jakie błędne wyobrażenia o uczeniu maszynowym w finansach wciąż dominują?

Uczenie maszynowe (ML) w finansach jest technologią, która, mimo rosnącej popularności, jest obciążona licznymi błędnymi przekonaniami. Są one wynikiem zarówno nadmiernego entuzjazmu, jak i przesadnego sceptycyzmu, które mogą zaburzać właściwe zrozumienie jego rzeczywistego potencjału. Przypisuje się mu zarówno status „świętego Graala”, który ma rozwiązać wszystkie problemy finansowe, jak i całkowitą bezużyteczność w porównaniu do klasycznych metod statystycznych. Oto pięć popularnych mitów, które wymagają wyjaśnienia.

Pierwszy mit to przekonanie, że uczenie maszynowe jest „świętym Graalem” finansów. Rzeczywiście, hype związany z tą technologią wzbudza oczekiwania, które mogą być trudne do spełnienia w najbliższej przyszłości. Zwolennicy tego poglądu sugerują, że uczenie maszynowe, dzięki swojej zdolności do przetwarzania ogromnych zbiorów danych i odkrywania subtelnych wzorców, zdominuje tradycyjne metody analityczne. Jednak w rzeczywistości, choć ML posiada ogromny potencjał, nie jest w stanie sprostać wszystkim wyzwaniom bez właściwego zastosowania. Jednocześnie, w odpowiedzi na to, krytycy ML twierdzą, że klasyczne metody statystyczne, takie jak regresja liniowa, wciąż wystarczają, a rozmaite problemy, takie jak wielokrotna kolineacja czy błędne specyfikacje modeli, nie są powodem do alarmu. Warto jednak zauważyć, że takie naruszenia klasycznych założeń mogą prowadzić do fałszywych pozytywów lub fałszywych negatywów, co ma istotne konsekwencje dla dokładności prognoz.

Kolejny mit dotyczy przekonania, że ML to czarna skrzynka, której działanie jest niemożliwe do zrozumienia. Zdecydowana większość współczesnych zastosowań ML w finansach, począwszy od analizy ryzyka, przez konstrukcję portfela, aż po detekcję anomalii, opiera się na technikach, które są całkowicie przejrzyste i możliwe do interpretacji. Istnieje wiele metod, które pozwalają na wyjaśnienie działania modelu ML, takich jak analiza cech istotnych dla modelu czy wykresy wyjaśniające, jak zmieniają się prognozy w zależności od zmiany wartości zmiennych wejściowych. Stwierdzenie, że ML jest czarną skrzynką, często wynika z braku chęci zrozumienia metod, które są wykorzystywane. Tak jak w przypadku samochodów, które dla niektórych pozostają tajemnicą, podobnie w kontekście ML można wybierać, czy traktować go jako czarną skrzynkę, czy postarać się zrozumieć jego działanie.

Z kolei trzeci mit dotyczy braku wystarczającej ilości danych w finansach, by skutecznie wykorzystać ML. Rzeczywiście, niektóre algorytmy ML, szczególnie te stosowane w prognozowaniu cen, wymagają dużych zbiorów danych. Jednak wiele zastosowań ML w finansach, takich jak analiza ryzyka, konstrukcja portfela czy ocena istotności cech, nie wymaga historii danych w tradycyjnej postaci. Nawet w przypadkach, gdy dane historyczne są niezbędne, dostęp do nowych danych, takich jak dane dotyczące nastrojów rynkowych, czy analizowania reakcji rynku na różne algorytmy wykonawcze, znacznie poszerza możliwości badawcze. Ponadto, w kontekście eksperymentów kontrolowanych, naukowcy mogą generować własne dane, co umożliwia precyzyjne testowanie hipotez.

Czwarty mit dotyczy niskiego stosunku sygnału do szumu w finansach, co rzekomo uniemożliwia skuteczne zastosowanie ML. Istnieje prawda w stwierdzeniu, że dane finansowe są bardziej złożone i zawierają większy szum niż dane wykorzystywane w innych dziedzinach ML. Jednak to nie oznacza, że ML nie ma tu zastosowania. W finansach kluczowe jest dostosowanie narzędzi ML do specyficznych wyzwań tej dziedziny. Finansowe zastosowania ML są inne niż te w innych branżach, ponieważ muszą radzić sobie z unikalnymi problemami, takimi jak nieliniowe interakcje czy zależności czasowe.

Ostatni mit dotyczy zjawiska przeuczenia (overfitting) w kontekście finansów. Chociaż nie można go całkowicie wyeliminować, odpowiednie stosowanie algorytmów ML, a także zastosowanie zaawansowanych technik regularizacji, sprawia, że ryzyko przeuczenia może być mniejsze niż w przypadku klasycznych metod. Co więcej, jeśli ML jest stosowane przez doświadczonych analityków, jest mniej narażone na pułapki związane z przeuczeniem, w porównaniu do klasycznych metod, które bywają bardziej podatne na ten problem w przypadku błędnych założeń lub nadmiaru zmiennych.

Zrozumienie tych mitów pozwala na lepsze wykorzystanie potencjału ML w finansach. Należy jednak pamiętać, że aby osiągnąć sukces, konieczne jest nie tylko stosowanie odpowiednich algorytmów, ale także dogłębne zrozumienie specyfiki danych, kontekstu finansowego i umiejętność prawidłowej interpretacji wyników. Choć ML jest potężnym narzędziem, nie zastąpi on klasycznego myślenia finansowego, ale stanowi istotne uzupełnienie tradycyjnych technik, szczególnie w obliczu rosnącej złożoności rynku i danych.