W sekcji 2 przedstawiono, jak niestabilność kowariancji związana z szumem jest regulowana przez stosunek N/T, ponieważ dolna granica rozkładu Marcenko–Pastura, λ−, maleje w miarę wzrostu N/T, a górna granica, λ+, rośnie. W tej części zajmiemy się innym źródłem niestabilności kowariancji, wynikającym z samej struktury danych (sygnału). Jak pokazano w przykładzie z macierzą 2 × 2, ρ reguluje liczbę warunków macierzy, niezależnie od N/T. Niestabilność wywołana przez sygnał jest strukturalna i nie może być zredukowana przez zwiększenie liczby próbek.

Istnieje intuicyjne wyjaśnienie, dlaczego sygnał może powodować niestabilność w optymalizacji średniej i wariancji. Kiedy macierz korelacji jest macierzą jednostkową, funkcja wartości własnych ma postać poziomej linii, a liczba warunków wynosi 1. W innych przypadkach liczba warunków jest zależna od nieregularnej struktury korelacji. W szczególnym przypadku finansów, kiedy podzbiór papierów wartościowych wykazuje wyższą korelację wewnętrzną niż z resztą wszechświata inwestycyjnego, ten podzbiór tworzy klaster w macierzy korelacji.

Klastry pojawiają się naturalnie jako konsekwencja hierarchicznych zależności między aktywami. Kiedy K papierów wartościowych tworzy klaster, są one bardziej narażone na wspólny wektor własny, co oznacza, że związana z nimi wartość własna wyjaśnia większą część wariancji. Jednakże, ponieważ ślad macierzy korelacji wynosi dokładnie N, oznacza to, że wartość własna może wzrosnąć kosztem innych K - 1 wartości własnych w tym klastrze, co skutkuje liczbą warunków większą niż 1. W konsekwencji, im wyższa korelacja wewnątrz klastra, tym wyższa liczba warunków. To źródło niestabilności jest odrębne od zależności N/T→1.

Przykład numeryczny może lepiej ilustrować tę intuicję. Kod w przykładowym fragmencie 7.1 pokazuje, jak tworzyć blokowo-diagonalną macierz korelacji z różną liczbą bloków, wielkościami bloków i korelacjami wewnątrzblokowymi. Rysunek 7.1 przedstawia blokowo-diagonalną macierz korelacji o rozmiarze 4x4, składającą się z dwóch równych bloków, gdzie korelacja wewnątrzblokowa wynosi 0.5, a korelacja między blokami wynosi 0.0. Dzięki tej strukturze blokowej liczba warunków wynosi 3. Liczba warunków rośnie, jeśli (1) zwiększymy jeden z bloków lub (2) zwiększymy korelację wewnątrzblokową.

Na przykład, jeśli jeden z bloków ma rozmiar 3, a drugi 1, liczba warunków wzrasta do 4. Z kolei, jeśli zwiększymy korelację wewnątrzbloku do 0.75, liczba warunków rośnie do 7. Dla blokowo-diagonalnej macierzy korelacji o rozmiarze 500x500 z dwoma równymi blokami, gdzie korelacja wewnątrzbloku wynosi 0.5, liczba warunków wynosi 251. Wszystko to wynika z faktu, że w macierzy z 500 wektorami własnymi większość wariancji jest wyjaśniana tylko przez 2 z nich.

Warto zauważyć, że redukcja korelacji wewnątrz jednego z bloków nie prowadzi do zmniejszenia liczby warunków. Powód jest prosty – skrajne wartości własne są spowodowane przez dominujący blok. Nawet jeśli wysoka liczba warunków jest spowodowana tylko przez jeden klaster, ma to wpływ na całą macierz korelacji. To spostrzeżenie ma istotne konsekwencje – niestabilność rozwiązania Markowitza można przypisać kilku dominującym klastrom w macierzy korelacji. Niestabilność tę można ograniczyć, optymalizując dominujące klastry osobno, zapobiegając w ten sposób rozprzestrzenianiu się tej niestabilności na cały portfel.

Kolejnym krokiem jest wprowadzenie nowej metody bazującej na uczeniu maszynowym, znanej jako algorytm optymalizacji zagnieżdżonych klastrów (NCO). Algorytm ten należy do klasy algorytmów zwanych „opakowaniami” (wrappers): jest niezależny od tego, który punkt efektywnej granicy zostanie obliczony lub jakie ograniczenia zostaną nałożone. NCO oferuje strategię zarządzania efektem „klątwy Markowitza” w istniejących metodach alokacji średniej i wariancji.

Pierwszym krokiem algorytmu NCO jest klasteryzacja macierzy korelacji. Operacja ta polega na znalezieniu optymalnej liczby klastrów, co może być realizowane za pomocą algorytmu ONC, chociaż NCO jest agnostyczny co do konkretnego algorytmu używanego do ustalenia liczby klastrów. Dla dużych macierzy, gdzie T/N jest stosunkowo niskie, warto przeprowadzić denoising macierzy korelacji przed klasteryzacją, co opisano w sekcji 2.

Po sklastrowaniu macierzy korelacji, drugi krok algorytmu NCO polega na obliczeniu optymalnych alokacji wewnątrz klastrów, wykorzystując macierz kowariancji, która została poddana denoisingowi. Zaleca się używanie metody alokacji minimalnej wariancji (minVarPort), choć nic nie stoi na przeszkodzie, by zastosować inne metody alokacji. Dzięki tym optymalnym wagom intraklastra, możemy wyprowadzić zmniejszoną macierz kowariancji, która przedstawia korelacje między klastrami.

Optymalizacja klastrów w ramach algorytmu NCO może skutecznie zminimalizować wpływ dominujących klastrów na całą strukturę portfela, stabilizując wyniki optymalizacji, co jest szczególnie istotne w kontekście zastosowań finansowych.

Jak uniknąć przeuczenia w algorytmach uczenia maszynowego?

Uczenie maszynowe (ML) zyskało na popularności dzięki swojej elastyczności i zdolności do przetwarzania ogromnych zbiorów danych. Współczesne algorytmy potrafią analizować różnorodne zjawiska, wykrywając wzorce, które mogą umknąć ludzkiemu oku. Z drugiej strony, te same algorytmy niosą ze sobą ryzyko przeuczenia – sytuacji, w której model staje się zbyt dopasowany do danych treningowych, a przez to traci zdolność generalizacji na nowych, nieznanych danych. Zrozumienie, jak unikać przeuczenia, jest kluczowe dla prawidłowego wykorzystania algorytmów ML.

Algorytmy ML często nie tylko przewidują przyszłe zdarzenia, ale także wskazują na istniejące zależności, które nie zostały jeszcze odkryte. Dzięki temu, choć same nie potrafią udowodnić twierdzeń matematycznych, mogą naprowadzić na istnienie nieznanych teorii, które później mogą zostać zweryfikowane. Proces ten jest szczególnie istotny w naukach przyrodniczych oraz ekonomii, gdzie ML pomaga w tworzeniu nowych teorii na podstawie bogatych zbiorów danych. Algorytmy ML umożliwiają więc wykrywanie istotnych zmiennych, które mogą stanowić podstawę teorii, nawet jeśli same zmienne nie wyjaśniają w pełni mechanizmów, które nimi rządzą.

Przykładem tego podejścia jest metoda MDA (Mean Decrease Accuracy), która polega na ocenie znaczenia zmiennych w kontekście przewidywań. W pierwszym kroku algorytm uczy się na danych treningowych, a następnie ocenia swoją skuteczność na zbiorze walidacyjnym. Kolejnym krokiem jest przypadkowe przemieszanie zmiennych, co pozwala sprawdzić, które z nich mają największy wpływ na jakość prognozy. MDA nie wyjaśnia, dlaczego te zmienne są ważne, ale wskazuje, które z nich powinny być uwzględnione w dalszej analizie.

Uczenie maszynowe jest także powszechnie wykorzystywane do oceny związków przyczynowych w danych. Algorytmy ML, oparte na danych historycznych, mogą przewidywać wyniki, pomijając efekt przyczyny, a następnie te same algorytmy są wykorzystywane do analizy wyników pod wpływem tej przyczyny. Błąd prognozy, który występuje w tym procesie, może zostać przypisany obecności tej przyczyny, co pozwala na stworzenie teorii przyczynowości.

Chociaż ML pomaga w odkrywaniu ukrytych wzorców, jest również wykorzystywane do wizualizacji i redukcji wymiarowości dużych, złożonych zbiorów danych. Algorytmy takie jak uczenie na rozmaitościach (manifold learning) pozwalają na grupowanie podobnych obserwacji, co pozwala na dalszą analizę ich właściwości. W tym przypadku, choć sama struktura danych może być trudna do zrozumienia, algorytmy pomagają w znalezieniu sensownych zestawów zmiennych, które mogą prowadzić do nowych wniosków.

Podstawowym problemem, który towarzyszy stosowaniu algorytmów ML, jest przeuczenie, zwłaszcza w przypadkach, gdy algorytm staje się zbyt dopasowany do danych treningowych. Przeuczenie można rozpoznać po rozbieżności między wynikami na zbiorze treningowym i testowym, co jest tzw. błędem generalizacji. Występują dwa główne typy przeuczenia: przeuczenie na zbiorze treningowym oraz przeuczenie na zbiorze testowym.

Pierwszy typ przeuczenia wynika z nadmiernej elastyczności modelu, który zaczyna uchwycać nie tylko sygnał, ale także szum w danych. Sytuacja ta prowadzi do zbyt pewnych, ale błędnych prognoz, które nie są w stanie poprawnie przewidywać wyników na nowych danych. Istnieje kilka sposobów radzenia sobie z tym problemem, w tym techniki regularyzacji, które ograniczają złożoność modelu, oraz metody ensemble, które łączą prognozy różnych modelów w celu zmniejszenia wariancji błędu. Dodatkowo, ważne jest, aby kontrolować błąd generalizacji, stosując techniki takie jak walidacja krzyżowa czy metody Monte Carlo.

Z kolei przeuczenie na zbiorze testowym jest bardziej subtelnym problemem, który może wystąpić, gdy model jest dostosowywany do danych testowych. Przykładem może być sytuacja, w której badacz dostosowuje strategię inwestycyjną, aż osiągnie pożądany wynik w teście. Taki cykl "test - dostosowanie - test" prowadzi do stworzenia modelu, który jest idealny dla danych testowych, ale nie sprawdzi się na danych nowych, nieznanych. Jest to klasyczny przykład tzw. "przeuczenia na zbiorze testowym". Aby zapobiec takim sytuacjom, istotne jest, aby badacz skupił się na krytycznej analizie procesu badawczego, a nie na poprawianiu wyników konkretnej strategii.

ML nie jest przyczyną kryzysu w badaniach finansowych, ale może pomóc w walce z powszechnym problemem przeuczenia na zbiorze testowym. Na przykład, śledzenie liczby testów, które zostały przeprowadzone, oraz kontrolowanie wskaźników takich jak współczynnik błędu rodziny (FWER) może pomóc w ocenie, czy wynik jest przypadkowym odkryciem, czy rzeczywiście odzwierciedla rzeczywiste zależności w danych.

Zatem, choć algorytmy ML stanowią potężne narzędzie, ich stosowanie wymaga staranności i odpowiednich metod weryfikacji, by uniknąć pułapek związanych z przeuczeniem. Tylko wówczas algorytmy te staną się wartościowym narzędziem w nauce, finansach i innych dziedzinach, umożliwiając odkrywanie prawdziwych zależności w ogromnych zbiorach danych, a nie jedynie dopasowywanie modeli do szumu.

Jak maksymalizować wydajność w analizie danych: Zastosowanie teorii Gumbela i rozkładu Gaussa

Zmienność w analizie danych, szczególnie w kontekście wartości ekstremalnych, jest jednym z kluczowych obszarów badań statystycznych i modelowania. Przyjrzyjmy się więc, jak zastosowanie teorii Gumbela i rozkładu normalnego może pomóc w lepszym zrozumieniu tej zmienności i w skuteczniejszym przewidywaniu maksymalnych wartości w dużych próbach.

Rozważmy zbiór zmiennych losowych, oznaczonych jako yky_k, które mają rozkład Gaussa N(0,1)N(0, 1) (standardowy rozkład normalny), gdzie k=1,,Kk = 1, \ldots, K. Celem jest analiza maksymalnej wartości próbki, czyli maxkyk\max_{k} y_k, w miarę jak KK rośnie w nieskończoność. Zastosowanie twierdzenia Fishera–Tippetta–Gnedenki pozwala uzyskać przybliżenie dla maksymalnej próbki. W wyniku tego procesu pojawia się funkcja rozkładu Gumbela, która opisuje zachowanie rozkładu maksymalnych wartości w przypadku dużych próbek. Funkcja ta ma postać:

G(x)=eex,G(x) = e^{ -e^{ -x}},

gdzie G(x)G(x) to funkcja rozkładu skumulowanego (CDF) dla standardowego rozkładu Gumbela.

Zatem w granicy, gdy liczba prób KK dąży do nieskończoności, funkcja prawdopodobieństwa, która opisuje maksymalną wartość maxkyk\max_{k} y_k, osiąga wartość G(x)G(x). Co istotne, parametry α\alpha i β\beta w tej formule są związane z normalizacją rozkładu i zależą od liczby prób:

α=Z1(11K),\alpha = Z^{ -1}(1 - \frac{1}{K}),
β=Z1(11Ke1)α,\beta = Z^{ -1}(1 - \frac{1}{K} e^{ -1}) - \alpha,

gdzie Z1Z^{ -1} to odwrotność funkcji rozkładu skumulowanego standardowego rozkładu normalnego.

Dla dużych prób oczekiwana wartość normalizowanego maksimum może być aproksymowana jako:

E[maxkyk]α+γβ,E[\max_{k} y_k] \approx \alpha + \gamma \beta,

gdzie γ\gamma to stała Eulera-Mascheroniego (γ0.5772\gamma \approx 0.5772).

To podejście pozwala zrozumieć, jak zachowują się wartości ekstremalne w dużych próbach danych, szczególnie w kontekście zmiennych losowych o rozkładzie normalnym.

Przechodząc do bardziej praktycznego zastosowania tej teorii, rozważmy zbiór zmiennych, które reprezentują oszacowane statystyki wydajności SkS_{k}, z rozkładem N(0,V)N(0, V). Dzięki tej teorii jesteśmy w stanie oszacować oczekiwaną wartość maksymalnej statystyki wydajności z próbki. Skorzystanie z liniowości operatora oczekiwania umożliwia opracowanie wzoru na oszacowanie tej wartości, co jest istotne w kontekście analizy wyników testów wydajnościowych różnych strategii w handlu lub modelach predykcyjnych. W wyniku tej analizy otrzymujemy przybliżenie:

E[maxkSk](1γ)Z1(11K)+γZ1(11Ke1).E[\max_{k} S_k] \approx \left( 1 - \gamma \right) Z^{ -1}(1 - \frac{1}{K}) + \gamma Z^{ -1}(1 - \frac{1}{K} e^{ -1}).

Wartość ta jest użyteczna w ocenie wyników strategii inwestycyjnych, ponieważ pozwala na uzyskanie szerszego obrazu zmienności i granic wydajności, biorąc pod uwagę rozkłady danych.

Zastosowanie tej teorii ma również szereg implikacji w dziedzinie inwestycji i finansów, szczególnie w kontekście modelowania ryzyka i przewidywania maksymalnych zysków lub strat w dużych próbach danych. Jest to szczególnie ważne w przypadku zastosowania algorytmów machine learning do prognozowania rynków finansowych, gdzie analiza ekstremalnych wartości ma kluczowe znaczenie w ocenie ryzyka.

Warto zauważyć, że oprócz samego rozkładu Gumbela, istotne jest zrozumienie, jak parametry tego rozkładu wpływają na wyniki estymacji. Dokładność przybliżeń zależy od liczby prób KK oraz rozkładu zmiennych losowych, co oznacza, że modelowanie ryzyka oparte na tej teorii wymaga uwzględnienia zarówno rozkładu, jak i wielkości próby.

W kontekście praktycznym, warto zwrócić uwagę, że podejście to może być również stosowane w bardziej złożonych modelach predykcji w finansach, takich jak modelowanie zmienności rynku czy analiza portfeli inwestycyjnych, gdzie ekstremalne zjawiska, takie jak kryzysy finansowe, mogą mieć wpływ na ostateczne wyniki. Z tego względu włączenie teorii wartości ekstremalnych do procesów decyzyjnych w finansach jest istotnym krokiem w zrozumieniu i zarządzaniu ryzykiem w dużych zbiorach danych.

Jakie są wyzwania i szanse związane z wykorzystaniem sztucznej inteligencji w prognozowaniu finansowym?

Wykorzystanie sztucznej inteligencji w prognozowaniu finansowym i w tworzeniu modeli inwestycyjnych staje się coraz bardziej powszechne. W ciągu ostatnich kilku lat obserwujemy szybki rozwój narzędzi opartych na uczeniu maszynowym, które pozwalają na skuteczniejszą analizę danych rynkowych oraz przewidywanie zmienności cen aktywów. Modele oparte na sztucznych sieciach neuronowych, drzewach decyzyjnych czy maszynach wektora nośnego (SVM) dają inwestorom nowe możliwości, ale również stawiają przed nimi poważne wyzwania.

Przewidywanie kursów walutowych, cen akcji czy rentowności obligacji na podstawie danych historycznych stało się możliwe dzięki zaawansowanym algorytmom, które potrafią uchwycić skomplikowane zależności w dużych zbiorach danych. Wiele z tych modeli jest opartych na metodach głębokiego uczenia, takich jak sieci neuronowe feedforward i rekurencyjne, które, mimo swojej złożoności, oferują bardzo wysoką precyzję w prognozowaniu. Warto jednak pamiętać, że takie podejście nie jest wolne od ograniczeń, a efektywność tych algorytmów zależy w dużej mierze od jakości danych wejściowych oraz odpowiedniego modelowania struktury rynku.

Modele oparte na drzewach decyzyjnych, takie jak losowe lasy (Random Forests) czy gradientowe drzewa wzrostu (Gradient Boosting Trees), również znajdują swoje zastosowanie w analizie rynków finansowych. Pozwalają one na tworzenie bardziej przejrzystych i interpretowalnych modeli, które mogą być wykorzystywane do podejmowania decyzji inwestycyjnych. Modele te, choć prostsze w interpretacji niż sieci neuronowe, wciąż oferują wysoką dokładność prognoz, szczególnie w przypadku rynku akcji czy obligacji.

Wraz z rosnącą popularnością algorytmów uczenia maszynowego, pojawia się jednak problem związany z tzw. "krzywą testowania", czyli zjawiskiem, w którym modele, pomimo wysokiej skuteczności w fazie testowania, nie są w stanie utrzymać swoich osiągnięć w warunkach rzeczywistych, poza próbą testową. To zjawisko, znane również jako overfitting, jest wynikiem nadmiernego dopasowania modelu do danych historycznych, co skutkuje utratą zdolności do generalizacji na nowych danych. Problemy te są szczególnie widoczne w finansach, gdzie rynek jest zmienny, a dane historyczne mogą nie odzwierciedlać przyszłych trendów.

Ponadto, przy stosowaniu takich zaawansowanych narzędzi, jak sieci neuronowe, niezbędna jest także uwaga na kwestie związane z rozkładem danych, czyli ich normalnością. Wprowadzenie tzw. "deflated Sharpe ratio", czyli skorygowanej wersji wskaźnika Sharpe'a, może pomóc w lepszej ocenie efektywności strategii inwestycyjnych, minimalizując wpływ biasów związanych z nadmiernym dopasowaniem modelu. Warto także pamiętać o ryzyku, jakie wiąże się z błędami w estymacji ryzyka i wyników inwestycyjnych, które mogą powstać w wyniku niewłaściwego zastosowania modeli złożonych.

Zastosowanie sztucznej inteligencji w prognozowaniu finansowym to także wyzwanie związane z problemami etycznymi i regulacyjnymi. Modele te, mimo swojej potężnej mocy obliczeniowej i zdolności do analizy ogromnych zbiorów danych, mogą prowadzić do zjawisk, które nie zawsze są zgodne z zasadami przejrzystości i uczciwości na rynku finansowym. Z tego powodu niezwykle istotne jest monitorowanie i regulowanie stosowania takich narzędzi, aby zapobiegać ich nadużywaniu, zwłaszcza w kontekście dużych instytucji finansowych.

W kontekście wykorzystania sztucznej inteligencji w finansach, istotnym tematem jest także kwestia tzw. „czarnej skrzynki” (black-box models), czyli sytuacji, w której użytkownik modelu nie jest w stanie w pełni zrozumieć, jak model dochodzi do swoich prognoz i decyzji. Jest to szczególnie problematyczne w sytuacjach, gdy decyzje inwestycyjne mają wpływ na dużą liczbę osób lub instytucji. Z tego względu rozwój metod, które pozwalają na większą interpretowalność modeli, staje się kluczowy. Badania nad tzw. „wyjaśnialnym uczeniem maszynowym” (XAI) stają się coraz bardziej istotne, ponieważ pozwalają na lepsze zrozumienie mechanizmów decyzyjnych i mogą stanowić fundament dalszego rozwoju tej dziedziny.

Kluczowym zagadnieniem jest także ocena jakości i wiarygodności danych, na których opierają się modele prognozujące. Dane rynkowe, które stanowią fundament decyzji inwestycyjnych, często są pełne szumów, błędów pomiarowych lub mogą mieć charakter sezonowy, co wpływa na jakość predykcji. Użycie zaawansowanych metod filtracji danych, takich jak redukcja wymiarów czy techniki wykrywania anomalii, może znacznie poprawić jakość wyników modeli.

Warto również zwrócić uwagę na to, że mimo rosnącej popularności algorytmów i modeli opartych na sztucznej inteligencji, wciąż istnieje miejsce na tradycyjne podejścia analityczne. Sztuczna inteligencja nie jest panaceum na wszystkie problemy związane z prognozowaniem rynków finansowych. Stąd również istotnym pozostaje balans pomiędzy nowoczesnymi technologiami a klasycznymi metodami analizy.