A normálisan eloszlott változó xx várható értéke x0x_0 és szórása σ2\sigma^2 esetén a következő eloszlás, g(u)g(u), meghatározása az u=(xx0)2σ2u = \frac{(x - x_0)^2}{\sigma^2} normált négyzetes eltérés segítségével történik. Az uu várható értéke 1, mivel a (xμ)2(x - \mu)^2 várható értéke definíció szerint σ2\sigma^2 minden eloszlás esetében. Az x(u)x(u) függvény két ágból áll, és a következő kifejezés adódik a valószínűségi eloszlás meghatározásához:

g(u)=12πueu/2+g(u) = \frac{1}{\sqrt{2 \pi u}} e^{ -u/2} + \dots

Ez az úgynevezett χ2\chi^2-eloszlás (chi-négyzet eloszlás) egy szabadságfokkal. Az ilyen típusú eloszlás gyakran előfordul statisztikai modellekben, például az energia-eloszlásoknál. Például egy ideális gáz részecskéinek sebességét figyelembe véve, a kinetikus energia eloszlása a következőképpen alakítható:

g(E)=1πkTEeE/kTg(E) = \frac{1}{\pi k T E} e^{ -E/kT}

Ez a képlet a gázrészecskék energiájának eloszlását adja meg, és a statisztikai fizika alapvető alkalmazásai közé tartozik.

A stochasztikus folyamatok számítógépes szimulációjában gyakran előfordul, hogy a generált egyenletes eloszlású számokat át kell alakítani kívánt eloszlásba, például normál eloszlásba vagy exponenciális eloszlásba. Ehhez szükséges egy olyan változáson alapuló transzformáció, amely az f(x)f(x) eloszlást g(u)g(u)-ba alakítja, ahol u(x)u(x) egy monoton függvény. Az ilyen típusú transzformációk általában analitikusan megoldhatók, amennyiben mindkét eloszlás, ff és gg, integrálható analitikusan, és az G1G^{ -1} inverz függvény is kiszámítható. Ha például a kezdő eloszlás egyenletes, f(x)=1f(x) = 1 0x10 \leq x \leq 1, akkor az integrálás és inverzió segítségével meghatározhatjuk a kívánt eloszlást.

Például, ha egy exponenciális eloszlású változót szeretnénk generálni egyenletes eloszlásból, akkor az alábbi átalakítást alkalmazhatjuk:

u=ln(1x)λu = -\frac{\ln(1 - x)}{\lambda}

Ahol xx egy egyenletes eloszlású szám, és uu exponenciálisan eloszlott lesz. Ezt a megoldást gyakran használják a részecskék életidejének és más bomlási folyamatok szimulálásakor.

A többváltozós eloszlások esetében a legfontosabb fogalom az integrált eloszlásfüggvény, amely azt adja meg, hogy a két változó, xx' és yy', milyen valószínűséggel esik egy adott intervallumba. A kétváltozós eloszlás esetén a közös valószínűségi eloszlás az eloszlásfüggvény parciális deriváltjaként van meghatározva:

f(x,y)=2F(x,y)xyf(x, y) = \frac{\partial^2 F(x, y)}{\partial x \partial y}

A közös valószínűségi eloszlás a két változó marginalizált eloszlásaival is leírható, amelyek a következő módon alakulnak:

fx(x)=f(x,y)dy,fy(y)=f(x,y)dxf_x(x) = \int_{ -\infty}^{\infty} f(x, y) dy, \quad f_y(y) = \int_{ -\infty}^{\infty} f(x, y) dx

A feltételes valószínűségi eloszlások is kifejezhetők, amelyek a következő összefüggésben jelennek meg:

fx(xy)=f(x,y)fy(y),fy(yx)=f(x,y)fx(x)f_x(x | y) = \frac{f(x, y)}{f_y(y)}, \quad f_y(y | x) = \frac{f(x, y)}{f_x(x)}

Ezek a képletek a Bayes-tételre vezethetők vissza, és fontos szerepet játszanak a többváltozós eloszlások elemzésében.

A kétváltozós eloszlások egyik fontos alkalmazása a korrelációk és kovarianciák vizsgálata. A kovariancia, σxy\sigma_{xy}, azt mutatja meg, hogy a két változó, xx és yy, mennyire vannak összefüggésben. Ha a kovariancia különbözik nullától, akkor a változók korreláltak, ami azt jelenti, hogy az egyik változó értéke befolyásolja a másikét. A korrelációs együttható, ρxy\rho_{xy}, azt mutatja meg, hogy mennyire erős a kapcsolat a két változó között, és a következőképpen számítható:

ρxy=σxyσxσy\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \sigma_y}

Ez a mutató segít abban, hogy a változók közötti kapcsolatokat jobban megértsük és alkalmazzuk az elemzések során.

Az ilyen típusú eloszlások és transzformációk alkalmazása különösen fontos a statisztikai modellezés és az adatelemzés terén, hiszen lehetővé teszik a különböző típusú eloszlások közötti átalakításokat és a komplex, többváltozós rendszerek viselkedésének előrejelzését. A szimulációk során alkalmazott módszerek révén könnyedén modellezhetők az olyan folyamatok, mint a részecskék bomlása vagy az energiaeloszlások, amelyek számos tudományos és mérnöki alkalmazásban kiemelt szerepet kapnak.

Miért fontos a statisztikai tesztelés a fizikai adatelemzésben?

A statisztikai tesztelés alapvető szerepet játszik a tudományos adatok értelmezésében, különösen a fizikai kísérletek és megfigyelések esetén. Az energia-teszt és a k-nearest neighbor teszt két jól ismert módszer, melyek alkalmazása lehetővé teszi a minták közötti különbségek vizsgálatát. Ezen tesztek célja nem csupán a háttéradatok, hanem az érdekes jelek felismerése is, amelyeket a statisztikai szignifikancia segítségével azonosíthatunk. Az alábbiakban részletesen áttekintjük a két teszt alkalmazását, valamint azt, miért elengedhetetlen a p-értékek helyes értelmezése és az ehhez kapcsolódó bizonytalanságok kezelése.

A két mintás energia-tesztet gyakran alkalmazzák különböző populációk közötti eltérések kimutatására. Ebben a tesztben a két minta közötti energiaértéket számítják ki, amely egyfajta hasonlóságot vagy különbséget jelez. Egy példán keresztül megvizsgálva, amikor két mintát, 15 és 30 megfigyelést tartalmazó csoportokat hasonlítunk össze, az energiaérték φAB = −1.480, amely a két minta közötti különbségre utal. A teszt során 10000 véletlenszerű mintát választunk ki, majd a minták energiaeloszlását hisztogram formájában ábrázoljuk. Az ábra mutatja, hogy a p-érték 0,06, ami arra utal, hogy a két minta különböző eloszlásokból származik. A p-érték kis mértékben tér el a nullhipotézistől, ami azt jelzi, hogy a mintaeltérések szignifikánsak.

A k-nearest neighbor teszt, amely szintén kétmintás teszt, hasonló eredményeket adhat. Azonban ez a teszt kevésbé érzékeny a minták sűrűségében fellépő változásokra, ellentétben az energia-teszttel, amelyet a Gauss-féle távolságfüggvény és a folyamatos távolságfüggvény jellemez. Bár a k-nearest neighbor teszt rugalmas, az energia-teszt nagyobb fokú flexibilitást kínál, mivel minden egyes megfigyelést figyelembe vesz a minta összefüggésében.

A jelek szignifikanciájának meghatározása különbözik a jó illeszkedés tesztelésétől. Itt nem csupán azt vizsgáljuk, hogy a nullhipotézis összhangban van-e a mintával, hanem azt, hogy van-e jelen jele annak, hogy a minta egy érdekes háttérből származó eltérést tartalmaz. Az ilyen típusú teszteket gyakran alkalmazzák a ritka események, például a neutrínó-osszillációk, illetve új részecskék vagy rezonanciák felfedezésére. A háttér eloszlásának ismerete mellett azonban az alternatív hipotézist is paraméterezni kell, mivel ez segít az új jel felismerésében.

A szignifikancia meghatározásakor fontos, hogy a p-értéket helyesen értelmezzük. A p-érték egy mérőszám, amely megmutatja, hogy milyen valószínűséggel figyeltük meg az adott adatokat, ha a nullhipotézis igaz lenne. A p-értékek egyirányú teszteknél a szórás segítségével is átalakíthatók, hogy jobban reprezentálják a szignifikancia mértékét. Az alacsony p-értékek, amelyek a nullhipotézis elutasítását jelzik, a jelek erősebb szignifikanciáját mutatják, míg a magasabb p-értékek azt jelenthetik, hogy a megfigyelt eltérés csupán véletlen.

Azonban a p-értékek helyes értelmezése mellett figyelembe kell venni a statisztikai eloszlásokat is, amelyek a tesztelés során alkalmazott modellekhez kapcsolódnak. Sok esetben a háttér eloszlásának pontos modellje kritikus lehet, mivel a hibák növelhetik a szignifikanciát, így félrevezető eredményekhez vezethetnek. A számítások során a modell és a statisztikai eloszlás helyes alkalmazása elengedhetetlen ahhoz, hogy valódi és megbízható eredményeket kapjunk.

A jelek és a háttér közötti különbség erősségét gyakran a maximális valószínűségi hányados (likelihood ratio, LR) segítségével mérhetjük, amely az egyik legjobban alkalmazható tesztstatisztika. A LR a különböző eloszlások maximális valószínűségeinek arányát adja meg, és nagyobb szignifikanciát jelez, amikor a háttérmodell nem képes megfelelően leírni a jelet. A teszt alkalmazása a gyakorlatban gyakran azt is jelenti, hogy különböző eloszlásokat kell vizsgálnunk, például egy lineáris és egy kubikus modell közötti választás során, hogy megbecsüljük a háttér és a jel közötti különbséget.

Fontos figyelembe venni a numerikus közelítéseket is, mivel a Poisson eloszlás és a Gauss eloszlás közötti eltérések is befolyásolhatják a teszt eredményét. Az ilyen típusú közelítésekhez kapcsolódó hibák a szignifikanciát alulbecsülhetik, ezért ezek a bizonytalanságok is szerepet kell kapjanak a modellezési eljárásokban.

A statisztikai tesztek során végzett helyes modellezés és az eredmények pontos értelmezése alapvető fontosságú a fizikai kísérletek és az adatelemzés sikeres végrehajtásában. A megfelelő teszt alkalmazása és a p-értékek helyes kezelése biztosítja, hogy a jelek valódiak, nem csupán a véletlen eredményei.