A statisztikai modellekben gyakran előfordul, hogy egy adott görbét kell illeszteni mért adatpontokhoz, amelyek hibahatárokkal rendelkeznek. Ennek a problémának a megoldására az egyik legismertebb módszer a legkisebb négyzetek módszere, amely a paraméterek meghatározására szolgál egy adott függvényben úgy, hogy minimalizálja a függvény és a mért adatpontok közötti négyzetes eltérések összegét. Ha N mérési pontunk van, amelyek xi,yi±δix_i, y_i \pm \delta_i formában vannak, és van egy függvényünk t(x,θ)t(x, \theta), amelyet szabad paraméterek θ\theta segítségével határozhatunk meg, akkor a célunk az, hogy meghatározzuk ezeket a paramétereket úgy, hogy a következő összeg minimális legyen:

χ2=i=1N(yit(xi,θ))2δi2.\chi^2 = \sum_{i=1}^{N} \frac{(y_i - t(x_i, \theta))^2}{\delta_i^2}.

Ez a kifejezés a legkisebb négyzetek módszerének alapvető formulája, amelyet a paraméterek meghatározására használunk.

A legkisebb négyzetek módszere Gauss nevéhez fűződik, és sikeresen alkalmazták asztronómiai problémákra, valamint azóta is az egyik legjobb módszer a paraméterek illesztésére, amikor csak a hibaeloszlás szórása ismert. Ha a hibák normál eloszlásúak, akkor a mérési valószínűségi sűrűségfüggvényét így is felírhatjuk:

f(y1,,yNθ)exp(12i=1N(yit(xi,θ))2δi2),f(y_1, \ldots, y_N | \theta) \propto \exp\left(-\frac{1}{2} \sum_{i=1}^{N} \frac{(y_i - t(x_i, \theta))^2}{\delta_i^2}\right),

amely alapján a log-likelihoood:

lnL(θy)=12i=1N(yit(xi,θ))2δi2.\ln L(\theta | y) = -\frac{1}{2} \sum_{i=1}^{N} \frac{(y_i - t(x_i, \theta))^2}{\delta_i^2}.

Ez azt jelenti, hogy a χ2\chi^2 minimalizálása egyenértékű a valószínűség maximalizálásával, ha a hibák normálisan eloszlottak, és függetlenek a szabad paraméterektől, ami gyakran nagyjából teljesül. A χ2\chi^2 érték várható értéke függetlenül a mért adatoktól és a paraméterektől, egyenlő az összes szabadságfokkal, és így a hibák mértéke egyenlő a 1-es egységgel.

A χ2\chi^2 eloszlásnak a szabadságfokokkal kapcsolatban ismert szórása σ=2f\sigma = \sqrt{2f}, ahol ff a szabadságfokok száma. Például, ha 50 szabadságfok van, akkor σ=100=10\sigma = \sqrt{100} = 10. Az ilyen nagy ingadozások miatt első pillantásra paradoxnak tűnhet, hogy a paraméter hibájának egy szórásnyi változása mindössze egy egységnyi változást eredményez a χ2\chi^2-ban, míg egy 10-es változás a χ2\chi^2-ben még mindig összhangban van az előrejelzésekkel.

A legkisebb négyzetek módszere azonban félrevezető eredményekhez vezethet, ha a feltételezés, miszerint a hibák normál eloszlásúak, nem teljesül. Ezt az alábbi példa szemlélteti:

Példa: A legkisebb négyzetek módszere egy digitális óra kalibrálására

Vegyünk egy digitális órát, amelynek kalibrálására a legkisebb négyzetek módszerét alkalmazzuk. A következő ábra bemutatja az idő csatornát a valós idő függvényében, valamint egy egyenes illesztését (piros vonal). Az ábra hibahatárokat mutat, amelyek nem a hagyományos értelemben vett hibahatárok, hanem a csatorna szélességét jelzik. A legkisebb négyzetek illesztés nem felel meg az ötödik pont engedélyezett tartományának, és így nem kompatibilis az adatokkal. Az összes olyan egyenes, amely megfelel az "error bar"-oknak, ugyanazzal a valószínűséggel rendelkezik. Az ábrán a helyes megoldás, a fekete vonal, is látható.

A legkisebb négyzetek módszere továbbfejleszthető a hibák korreláltságának figyelembevételével. Ilyen esetben a χ2\chi^2-kifejezés a következő módon általánosítható:

χ2=i,j=1N(yiti)Cij(yjtj),\chi^2 = \sum_{i,j=1}^{N} (y_i - t_i) C_{ij} (y_j - t_j),

ahol CC a kovariancia mátrix inverze, és a χ2\chi^2-érték így már nemcsak a hiba szórásaitól függ, hanem a mérési adatok közötti korrelációktól is.

Ha a paraméterek lineárisan függenek a megfigyelésektől, akkor a paraméterek analitikusan is meghatározhatók. Az általános lineáris illesztési modell így néz ki:

y(θ)=Aθ+e,y(\theta) = A \theta + e,

ahol AA egy adott minta, amely az N×PN \times P alakú mátrixot jelenti. A paraméterek meghatározásához minimalizáljuk a következő kifejezést:

χ2=(yAθ)TC(yAθ).\chi^2 = (y - A \theta)^T C (y - A \theta).

A minimális értéket a következő normál egyenletekkel érhetjük el:

θ^=(ATCA)1ATCy.\hat{\theta} = (A^T C A)^{ -1} A^T C y.

Ez a módszer lehetővé teszi a paraméterek pontos meghatározását a mérési hibák és a kovariancia figyelembevételével.

A legkisebb négyzetek módszere tehát az egyik legfontosabb és legszélesebb körben alkalmazott eszköze a tudományos adatelemzésnek, különösen akkor, amikor a mérési hibák eloszlása normális és független a paraméterek értékétől. Ugyanakkor fontos figyelembe venni, hogy a modell helyes alkalmazása és a hibák megfelelő kezelése kulcsfontosságú a megbízható és érvényes eredmények eléréséhez.

Hogyan használjunk spline-approximációkat a statisztikai elemzésekben?

A statisztikai tanulmányok és mérési adatok elemzése során gyakran előfordul, hogy valamilyen szabályos, folyamatos görbét keresünk az adatok között. Az egyik leghatékonyabb módszer erre a spline-approximáció. A spline-ok olyan matematikai eszközök, amelyek lehetővé teszik a folyamatos görbék modellezését az adatok között, miközben minimalizálják a hibát és megtartják a kívánt simaságot.

A spline-approximáció egy adott adatsorhoz illeszkedő görbét keres, amely folyamatosan illeszkedik a pontokhoz, miközben sima és görbült marad. A válaszértékek (y) pontosak és egyenlően elosztottak, így a pontokat egyszerűen összekapcsolhatjuk egy poligonális vonallal. Azonban, hogy a görbe ne tartalmazzon éles töréseket, érdemes kvadratikus spline-okat alkalmazni. A spline fokának növelésével egy olyan görbét kapunk, amely a kívánt származtatott görbét biztosítja. A harmadik fokú spline-ok ritkán kerülnek alkalmazásra, mivel a második rendű származtatott görbék a legtöbb ember számára simának tűnnek.

A spline-approximációk széles körben alkalmazottak a mérnöki tudományokban és a technikai alkalmazásokban, de sikeresen alkalmazták őket a dekonvolúció problémájára is. A módszer alapja, hogy nem egy hisztogramot illesztünk a valódi eloszláshoz, hanem a spline-funkciók amplitúdóit illesztjük. Az előny itt az, hogy folyamatos funkciót kapunk, amely a kívánt fokú regularizációt tartalmazza. A numerikus számításokhoz különösen hasznosak az úgynevezett B-spline-ok (alap spline-ok). Az egyszerűsített B-spline-ok, amelyek háromszög alakúak, folyamatosak és illeszkednek a csomópontokhoz, segítenek megoldani a problémát.

A B-spline-ok használatának alapja az, hogy a megfelelő lépésköz és a középpont helye meghatározza az adott spline fokát. A B-spline amplitúdókat az úgynevezett legkisebb négyzetek módszerével lehet meghatározni. Az adatpontokhoz tartozó hibák figyelembevételével minimalizálni kell a különbséget a spline-okkal illesztett és a valódi mért adatok között. A válasz függvények előrejelzésére egy ilyen illesztési módszer segíthet a pontosabb értékek meghatározásában.

A spline-approximációk alkalmazása azonban nem korlátozódik csak egy dimenzióra. Továbbfejlesztett módszereket is alkalmazhatunk magasabb dimenziókban, de ezeket bonyolítja a csomópontok (rácsok) elhelyezésének problémája. Különösen a B-spline-ok alkalmazása ebben az esetben is előnyös, de a két- és többdimenziós spline-ok meghatározása már magában hordozza a "dimenziók átok"-ként ismert problémát, ahol a változók száma exponenciálisan nő.

A spline-approximációk mellett fontos, hogy a függvények pontos modellezésére más típusú megközelítéseket is alkalmazzunk. Az olyan egyszerű függvények, mint a polinomiális vagy racionális függvények (Padé-approximáció), gyakran kielégítőek lehetnek. Az exponenciális függvények, a logaritmusok, a Gauss-függvények és az ezek kombinációi is hasznosak lehetnek bizonyos típusú adatok elemzésében. A legjobb eredményeket akkor érhetjük el, ha az adatokat először egy normálformába transzformáljuk, hogy elkerüljük a túlzott torzítást.

A mérések pontosságának javításához különböző simítási eljárásokat alkalmazhatunk, mint például a súlyozott átlagolás. Ezzel a módszerrel csökkenthetjük a szórást, de fontos figyelembe venni, hogy a szélén a mért értékek gyakran eltérhetnek az eredeti függvény viselkedésétől. A különböző simítási módszerek közül a Gauss-súlyozás hatékonyabb, mint a szomszédos pontok módszere, mivel az előbbi kevésbé hajlamos a szélén megjelenő irreális ingadozásokra.

A spline-approximációk alkalmazásakor figyelembe kell venni, hogy ha nincs előzetes tudásunk a függvény formájáról, akkor ez a módszer különösen hasznos lehet, mivel a mérési pontok önállóan képesek meghatározni a függvényt, miközben csökkenthetik a hamis oszcillációk lehetőségét.

Mindezek figyelembevételével a fizikusok gyakran egyszerű analitikai függvények alkalmazását részesítik előnyben, hogy leírják a méréseiket, mivel így elkerülhetik az általános módszerek használatát, amelyek gyakran nem nyújtanak kellően pontos eredményeket. A szabványos módszerek ugyanakkor hasznosak lehetnek, ha gyors áttekintést szeretnénk adni egy nagy mennyiségű adat paraméterezéséről. Az oszcilláló csúcsok és sávok gyakran jobban leírhatók hullámokkal, mint a hagyományos ortogonális függvényekkel.

Hogyan működnek a támogatott vektor gépek és a legközelebbi szomszédok a többdimenziós alkalmazásokban?

A többdimenziós alkalmazásokban a mérési problémák gyakran bonyolultak, különösen akkor, ha a bemeneti komponensek fizikailag nagyon különböző természetűek. A megoldást sokszor az jelenti, hogy a különböző mennyiségeket azonos szórásra normalizáljuk, és globális korrelációkat eliminálálunk lineáris változótranszformációval. Ez megfelel a fent említett főkomponens-transzformációval (lásd 11.3. szakasz), majd a főkomponensek skálázásával. Egy másik, de egyenértékű lehetőség a súlyozás irányfüggő alkalmazása. A Mahalanobis-metrika alkalmazása ugyanazt az eredményt adja, amit az 10.4.8 szakaszban bemutattunk. Nagy tréningminták esetén a távolságok kiszámítása költséges lehet számítási idő szempontjából. Azonban a számított távolságok számának drámai csökkentése sok esetben lehetséges a támogatott vektor gépek (SVM) alkalmazásával, amelyeket az alábbiakban tárgyalunk. A támogatott vektor gépek nem gépek, hanem programok, amelyek a tréningmintát néhány, de döntő fontosságú bemenetekre csökkentik, anélkül, hogy rontanák az eredményeket.

A legközelebbi szomszédok (k-Nearest Neighbors) módszer alkalmazása során egy K számot választunk, amely természetesen a tréningminta méretétől és az osztályok átfedésétől függ. Egy bemenet esetén meghatározzuk a K legközelebbi szomszédot, és kiszámoljuk a k1, k2 = K − k1 számú megfigyelést, amelyek az I. és II. osztályhoz tartoznak. Ha a k1/k2 arány nagyobb, mint α, akkor az új megfigyelést az I. osztályhoz, ellenkező esetben a II. osztályhoz rendeljük. Az α választása az elvesztési függvénytől függ. Ha az elvesztési függvény minden osztályt egyformán kezel, akkor α értéke 1 lesz, és egyszerű többségi szavazást kapunk. Az optimális K értékének meghatározása során minimalizáljuk az elvesztési függvény átlagát, amelyet a tréningmintában lévő összes megfigyelésre számítunk.

Azonban nem minden megfigyelést kell egyformán kezelni az adott régióban. Érdemes nagyobb súlyt adni azoknak, amelyek közelebb esnek a bemeneti értékhez. Erre érdemes választani egy Gauss-féle kernel függvényt, amely a következő formában adható meg:
K(x, x′) ∼ exp(- (x−x′)² / 2s²).
Ezáltal a súlyokat a következőképpen számítjuk ki:
wβ = K(x, xβi).
Ha csak két osztály létezik, a tréningmintát {x1, y1, ..., xN, yN} formában tekintve, ahol a válaszvektor yi = ±1, az új bemenet osztályozása a következőképpen történik:
ŷ(x) = sign(Σ (yi * K(x, xi))).
A kernel függvények irányfüggő sűrűségekkel történő alkalmazásakor, mint a Mahalanobis-forma, amely a következőképpen adható meg:
K(x, x′) ∼ exp(- 1/2 (x−x′)ᵀC(x−x′)),
ahol C a súlymátrix, fontos az s paraméter optimalizálása a tréningminta elvesztésének minimalizálásával.

A támogatott vektor gépek (SVM) eredményei hasonlóak a távolságfüggő súlyozásos módszerekhez, azonban kevesebb memóriát igényelnek az adatok tárolására, és a klasszifikáció rendkívül gyors. Ezért különösen hasznosak online alkalmazásokban. Az elemek osztályozása jellemzően egyszerűen összefüggő régiókra van korlátozva. Kétosztályos klasszifikáció esetén általában csak két régió létezik, amelyeket egy hiperfelület választ el. Rövid tartományú kernel függvények esetén egyértelmű, hogy a megfigyelések osztályozásához csak azoknak a bemeneti vektoroknak a helyzete szükséges, amelyek a hiperfelület közelében találhatóak. Ezeket a bemeneti vektorokat támogatott vektoroknak nevezzük. Az SVM programok ezen vektorokat és azok súlyait próbálják optimálisan meghatározni, miközben az összes többi bemenet súlyát nullára állítják. Egy dimenziós esetben, ahol az osztályok nem átfednek, elegendő csak azokat a bemeneteket tudni, amelyek a legközelebb esnek az osztályok közötti határhoz. Az SVM-ek nagy eseményszámok esetén különösen hasznosak, mivel az osztályozás nagyon gyors.

Ha a tréningminta elemszáma meghaladja a körülbelül 106-ot, az SVM-ek használata hatékony lehet, mivel a szükséges bemenetek számát drámaian csökkenthetjük, miközben megőrizzük az osztályozás minőségét. A gyors számítási idő mellett a memóriaigény is jelentősen csökken, ami kulcsfontosságú tényező, ha az alkalmazás online működik.

Milyen szerepe van a várható értéknek és a statisztikai teszteknek a paraméterek becslésében és az események elemzésében?

A várható érték (k) E(dij) a di és θ̂(k) értékek alapján, az alábbi módon számítható ki: di szorozva azzal a valószínűséggel, hogy az i. bin eseménye valóban a j. binhez tartozik. A kifejezés így alakul:

E(dij(k))=dij=1MAijθ^jE(d_{ij}^{(k)}) = d_i \sum_{j=1}^{M} A_{ij} \hat{\theta}_j

Ez alapján a várható érték meghatározásának alapja a megfelelő valószínűségek, amelyek az egyes bin-ek közötti kapcsolatokkal arányosak. Az ezt követő számítások segítenek az egyes paraméterek (θ) és a hozzájuk tartozó valószínűségi eloszlások finomhangolásában. Ha a paraméterekre vonatkozó becslések elég pontosak, az összes adatfájl és esemény pontosabban modellezhetővé válik.

Ezután a maximális lépés következik, ahol a Q függvény maximumát kell kiszámolni. A Q függvény egyszerűen kiszámítható, mivel a paraméterek vektora a független összegeken jelenik meg:

Qθj=Aij+dij=1MAijθ^j=0\frac{\partial Q}{\partial \theta_j} = -A_{ij} + d_i \sum_{j=1}^{M} A_{ij} \hat{\theta}_j = 0

Az ezt követő kifejezés segít a paraméterek iterációs frissítésében és a legjobb becslés megtalálásában.

A paraméterek iterációval történő meghatározása az események bináris osztályozása során kulcsfontosságú, mivel a modellezett valószínűségi eloszlások pontosítása elengedhetetlen a hatékony adatfeldolgozáshoz és az optimalizáláshoz.

A χ²-teszt a leggyakoribb módszer, amelyet az adatok illeszkedésének ellenőrzésére használnak. A legkisebb négyzetek módszere egy paraméterekre vonatkozó becslést ad, ha a mérési pontok és a hozzájuk tartozó hibák normál eloszlást követnek. A χ² értékét a következő kifejezés alapján számítjuk ki:

χ2=i=1N(yit(xi,θ))2δi2\chi^2 = \sum_{i=1}^{N} \frac{(y_i - t(x_i, \theta))^2}{\delta_i^2}

A cél az, hogy minimalizáljuk ezt az értéket, így a legjobb paraméterbecsléseket kapjuk. Ha a paraméterek száma meghaladja a mérési pontok számát, a χ² értéke nullára csökkenhet, mivel a modell tökéletesen illeszkedik az adatokhoz. Azonban a paraméterek növelésével az illeszkedés javulása és a χ² csökkenése mellett fontos figyelni, hogy az illeszkedés ne váljon túlzottan komplexszé, mivel ez túlillesztéshez vezethet.

Amikor több paramétert illesztünk, és a függvények lineáris kapcsolatban vannak a paraméterekkel, a χ² eloszlás szabályosan a f = N - Z fokú szabadságot követi, ahol Z a becsült paraméterek száma és N a mérési pontok száma. Ez azt jelenti, hogy a statisztikai teszt alkalmazása egyszerűsödik, és lehetőséget ad a különböző paraméterek finomhangolására.

A p-értékek kiszámításához a statisztikai teszteket általában Monte Carlo szimulációk alapján végezzük el, különösen akkor, ha az elméleti eloszlások nem ismertek. A Monte Carlo szimulációk az eloszlások reprezentálásában segítenek, és pontosabb becslést adnak a különböző statisztikai tesztek eredményéről. A normál eloszlástól való eltéréseket is figyelembe kell venni, ami a statisztikai tesztelés megbízhatóságát növeli.

A Fisher-Yates keverési algoritmus, amely az elemek véletlenszerű permutációját végzi el, szintén hasznos eszköz a statisztikai elemzések során, különösen a szimulációkban. Az algoritmus egyszerű és hatékony módszert kínál arra, hogy az elemek sorrendjét véletlenszerűen változtassuk meg, és ezzel biztosítsuk az adatok megfelelő reprezentációját.

Végül, amikor histogramok összehasonlításáról beszélünk, különösen akkor, ha mindkét hisztogram súlyozott eseményeket tartalmaz, fontos figyelembe venni a súlyok különbségeit és azok hatását a χ² értékre. Az ilyen típusú összehasonlítások lehetővé teszik, hogy a szimulált adatok és a mért adatok közötti eltéréseket pontosabban elemezzük, figyelembe véve az események súlyozottságát.

A statisztikai elemzések és tesztek során a legfontosabb megérteni, hogy minden paraméter és minden mérési pont hatással van az eredményekre. Minden statisztikai teszt alapvetően az adatok minőségétől és a modellek pontosságától függ. Az adatok helyes értelmezése és a megfelelő tesztelési módszerek alkalmazása elengedhetetlen a megbízható eredmények eléréséhez.