A mérési hibák elemzése alapvető szerepet játszik minden kísérleti tudományban, különösen a fizikában, ahol a precizitás és az eredmények megbízhatósága kulcsfontosságú. A mérési hibák különböző típusai és azok kezelése eltérő statisztikai módszereket igényelnek. Az egyik ilyen fontos módszer a hibák szorzásával és összeadásával kapcsolatos statisztikai eljárások, amelyeket az alábbiakban tárgyalunk.

A mérési hibák és azok szorzása különösen fontos lehet olyan esetekben, amikor több mérési eredményt kell kombinálni, hogy egy összesített értéket nyerjünk. Ha például egy mérés során több független, pozitív változót szoroznak össze, akkor az egyes változók relatív hibái hatással lesznek a végeredmény hibájára. A logaritmikus transzformáció alkalmazásával a szorzat eloszlása közelítőleg lognormális eloszlást követhet, mivel a logaritmusok eloszlása normális lesz a középérték-tétel következtében. A hibák szorzata tehát nem követi a szokásos Gauss-eloszlást, hanem inkább az aszimmetrikus lognormális eloszlást, amelynek statisztikai leírása a mérési szituációkban komplexebb.

A nemlineáris függvényekkel kapcsolatos hibák propagálása szintén egy fontos témakör, különösen akkor, amikor a függvények több véletlen, potenciálisan korrelált változót tartalmaznak. Az ilyen típusú hibák kezeléséhez gyakran szimulációs technikákat alkalmaznak, ahol a véletlen változók eloszlását figyelembe véve számos mintát generálnak, és ezekből az értékekből számítják ki a keresett statisztikai paramétereket. Ha a változók közötti kapcsolatokat nem ismerjük pontosan, a legjobb becslést kell alkalmazni, amely figyelembe veszi a változók mintáit és a statisztikai eloszlásokat.

A mérési hibák statisztikai típusai közül a legismertebbek a Poisson-, binomiális- és normál eloszlású hibák. A Poisson-eloszlás például akkor alkalmazható, amikor az események száma egy véletlen folyamat alapján oszlik el, míg a binomiális eloszlás a próbák számának és a sikeres kimenetelek arányának függvényében használható. A normál eloszlás pedig a sok független hatás összegzésével születik meg, ami a középérték-tétel következménye. Az ilyen típusú hibák egyszerűbben értelmezhetők és számíthatók ki, mivel az eloszlások jól ismert formákkal rendelkeznek, és a mérési eljárások során gyakran előfordulnak.

A statisztikai hibák kezelése mellett fontos a mérés megbízhatóságának és pontoságának növelése érdekében alkalmazott ismételt mérés és mintavétel módszere. Az ilyen esetekben a mérési eredményeket ismételt mérésekkel gyűjtjük össze, és a különböző eredmények szórása adja meg a mérés pontosságát. Ez az eljárás különösen hasznos, ha a valódi érték nem ismert, és a mérési adatokból kell következtetni arra.

Egy másik fontos elv a mérési hibák becslésénél a variancia alkalmazása. A mérési hibák szórása vagy varianciája segít a mérési eredmények szórásának meghatározásában, és alapot ad a hibák kvantitatív leírására. A mérési eredmények szórásának és hibáinak ismeretében a tudósok megbecsülhetik azokat a tényezőket, amelyek befolyásolják a mérés megbízhatóságát, és javíthatják a mérési folyamatot a hibák minimalizálása érdekében.

A statisztikai hibák becslésének egy másik gyakran alkalmazott módszere a mintaátlagok használata. Ha egy mérésből több mintát veszünk, akkor az átlagos mérési hiba a minta szórásával és az ismételt mérések számával összefüggésben becsülhető meg. Az átlagos hibát gyakran empirikus szórásnak vagy szórásnégyzetnek nevezik, amely segít a mérés pontosságának meghatározásában. Ha az igazságos érték ismeretlen, akkor a minta átlagát és a minta szórását kell használni a hibák meghatározására.

Fontos figyelembe venni, hogy a hibák kezelése során alkalmazott módszerek és eljárások szoros összefüggésben állnak a mérési körülményekkel és a mérés típusával. A mérési hibák és azok statisztikai elemzése tehát a mérési eljárások egyik legfontosabb aspektusa, amely biztosítja a tudományos eredmények megbízhatóságát.

Hogyan alkalmazzuk Bayes-tételt a statisztikai következtetésben?

A paraméterbecslés (pontbecslés) τ egyenlő az észlelt időpontok átlagos értékével. Ezen kívül, mint azt később látni fogjuk, az észlelés bizonytalanságát (intervallumbecslés) δτ is megbecsülhetjük. Azonban mind a pontbecslés, mind az intervallumbecslés függ a τ előzetes valószínűségétől, amelyet nehéz meghatározni. E problémák megoldása a következő szakaszokban kerül bemutatásra.

6.2 Következtetés adott előzetes információval

Ha előzetes információ áll rendelkezésre, akkor Bayes-tétel segítségével a mintából származó valószínűségeket lehet előállítani a hipotézisekre vagy paraméterekre. Az előzetes információ alapján meghatározhatjuk a hipotézisek vagy paraméterek valószínűségeit.

Bayes-tétel alkalmazásával a következő kapcsolatra jutunk:

P{AB}=P{AB}P{B}=P{BA}P{A}.P\{A \cap B\} = P\{A|B\}P\{B\} = P\{B|A\}P\{A\}.

A fenti egyenletben a P{A ∩ B} a két tulajdonság egyidejű előfordulásának valószínűsége, ami egyenlő a P{B}-vel, azaz a B tulajdonság megtalálásának valószínűségével, megszorozva azzal a feltételes valószínűséggel, hogy A akkor következik be, ha B igaz. A második rész pedig analóg módon értelmezhető.

Az egyenletet diszkrét valószínűségi változóra és hipotézisekre alkalmazzuk. Az index, amely a hipotézist jelöli, véletlenszerű változóként értelmezhető. Tegyük fel, hogy a P{k|Hi} valószínűsége ismert, ahol k a mért adat, és Hi a különböző, kölcsönösen kizáró hipotézisek.

Az a priori valószínűség P{Hi} meghatározza a hipotézis igazságának előzetes valószínűségét. Egy példán bemutatva, ha a valószínűségeket a Bayes-tétel alapján számoljuk, akkor megtudhatjuk, hogy például egy muon valószínűbben egy pion vagy kaon bomlásából származik, ha az előzetes eloszlásokat is figyelembe vesszük.

6.2.2 Folyamatos paraméterek

Amikor a hipotézis indexe helyett egy folytonos paramétert θ alkalmazunk, azaz végtelen számú hipotézissel dolgozunk, a valószínűségek helyett valószínűségi sűrűségekkel találkozunk. Ebben az esetben Bayes-tétel a következőképpen alakul:

f(x,θ)=fx(xθ)πθ(θ)=fθ(θx)πx(x),f(x, \theta) = f_x(x|\theta)\pi_{\theta}(\theta) = f_{\theta}(\theta|x)\pi_x(x),

ahol fx és fθ a feltételes eloszlások, míg πx és πθ a valószínűségi eloszlások. A tétel második egyenlete a mérés x függvényében számított valószínűségi sűrűségre vonatkozik. Az egyes eloszlásokhoz tartozó függvényeket úgy kell értelmezni, hogy a mérés x értékét maximális valószínűséggel a legvalószínűbb paraméterhez rendeljük.

Példa 6.2: A bomlás idejének becslése exponenciális előtérrel.

A detektor egy Kaon (K) mezon bomlását regisztrálja. Az esemény ideje θ, amit az előzetes eloszlás (prior) alapján becslünk, a mért időtartam t alapján történik a következőképpen:

f(θ)=e(tθ)2/(2σ2)eθ/τdθ.f(\theta) = \int e^{ -(t-\theta)^2/(2\sigma^2)} e^{ -\theta/\tau} d\theta.

Ez a példánkban azt mutatja, hogy az exponenciális eloszlás figyelembevételével a becsült érték eltérhet a mért értéktől. A lényeg, hogy a prior a paraméterek eloszlásának meghatározásához alapvető, és azt is figyelembe kell venni, hogy minél szűkebb a mérési tartomány, annál pontosabb lesz a becslés.

Ha a mérési függvények gyorsabban változnak, mint az előzetes eloszlás, akkor a prior figyelmen kívül hagyható, és a becslés a mérési adatokat is figyelembe véve jön létre. Ezért gyakran a valószínűségi sűrűség a normál eloszlást követi, és az adott értékek alapján meghatározhatjuk az értékek közötti bizonytalanságot is.

A legfontosabb dolog, amit meg kell érteni a Bayes-tétel alkalmazásakor, az a következő: A paraméterek előzetes eloszlása, vagyis a prior, alapvetően befolyásolja a mért adatokra vonatkozó következtetéseinket. A prior hiányában vagy bizonytalan megítélése esetén a legfontosabb eszköz, amellyel két alternatív hipotézist elválaszthatunk, a valószínűségi arányok (likelihood ratios) alkalmazása.

A statisztikai következtetés során mindig tisztában kell lennünk azzal, hogy a valószínűségi eloszlások és a hipotézisek értelmezése erősen függ a kezdeti információktól, és ezen alapvető tényezők figyelmen kívül hagyása torzíthatja az eredményeket. Az adatok és modellek pontos és helyes alkalmazása kulcsfontosságú ahhoz, hogy valid eredményeket kapjunk a statisztikai elemzések során.

Hogyan végezzünk paraméterbecslést Poisson eloszlás alapján?

A paraméterek becslése statisztikai szempontból mindig kihívást jelent, különösen, amikor a megfigyelt eloszlás megfelel a Poisson-típusú eloszlásnak. Tekintsük a következő példát: egy 500 adatpontból álló mintát, amelyet 20 különböző "bin"-ra osztottunk fel, és azt szeretnénk meghatározni, hogy a legjobb illeszkedéshez tartozó λ paraméter értéke hogyan becsülhető meg. A Poisson-approximáció esetében azt várjuk, hogy minden egyes bin esetében a megfigyelt értékek (ti) megfeleljenek az elméleti predikcióknak, amelyek az egyes bin középpontján lévő koszinusz értékei alapján alakíthatók ki. A minta becslése az alábbi módon történik:

i=120500ti=(1+λui),\sum_{i=1}^{20} \frac{500}{ti} = \left(1 + \lambda u_i \right),

ahol ui=1+(i0.5)10u_i = -1 + \frac{(i-0.5)}{10} a bin középpontjához tartozó értékek. Ezen egyenlet alapján a legnagyobb valószínűségű paraméterek (Maximum Likelihood Estimation, MLE) meghatározása érdekében a megfelelő valószínűségi függvényt kell figyelembe venni.

Az MLE meghatározásához egy logaritmikus függvény szükséges, amely leírja a Poisson-eloszlás alapján a valószínűséget. Ennek az alakja a következő:

lnL=(dt)22t12ln(2πt)\ln L = - \frac{(d - t)^2}{2t} - \frac{1}{2} \ln (2 \pi t)

Itt tt a várható érték, míg dd a megfigyelt adat. Ebből következik, hogy ha a Poisson-eloszlás normális eloszlássá konvergál nagyobb adatminták esetén, akkor a paraméterek becslése megegyezik a legkisebb négyzetek módszerével végzett illesztéssel, és az error határértéke a χ2\chi^2 érték egy egységgel való növekedésével meghatározható.

A valóságban gyakran előfordul, hogy a hisztogramok egyes binjeiben kevés adat található, ilyenkor a binned likelihood (binre bontott valószínűség) használata javasolt a χ2\chi^2-es illesztéssel szemben. A legjobb eredmény elérése érdekében ajánlott mindig a valószínűség-alapú illesztést alkalmazni.

A χ²-approximation a következő formában adható meg, amikor a Poisson-eloszlás helyett normális eloszlást alkalmazunk:

χ2=i=1B(diti)2ti\chi^2 = \sum_{i=1}^{B} \frac{(d_i - t_i)^2}{t_i}

Ahol did_i a megfigyelt adat, tit_i a várható adat, és BB az összes bin száma. Ha a Poisson-eloszlás jól közelíthető normális eloszlással, akkor a maximum likelihood becslés teljes mértékben megegyezik a legkisebb négyzetek illesztésével, és a standard hibák meghatározása a χ2\chi^2-értékek növekedésével történik.

Azonban, ha a hisztogramokon olyan binok találhatók, amelyekben kevés az adat, érdemes kerülni a χ2\chi^2-es illesztést, mivel ekkor a statisztikai feltételek nem teljesülnek. Ilyen esetekben a binned likelihood módszert alkalmazzuk.

A következő szakaszokban megvizsgáljuk, hogy mi történik, ha a paraméterek nem állandóak, hanem a mintákra jellemző eloszlás függvényében változnak. Ebben az esetben a normál Poisson-eloszlás nem alkalmazható, és a modellezés összetettebbé válik.

Ami a paraméterbecslést illeti, a fenti módszerek széleskörű alkalmazása mellett a becslések megbízhatósága is fontos tényező, amelyet a becslési hibák és a várható eloszlások összevetésével érdemes ellenőrizni.

Az adatelemzés során gyakran előfordul, hogy nem csak egy paraméter meghatározása a cél, hanem egy összetettebb modell illesztése, amely többféle paramétert is tartalmaz. Ezt az eljárást az úgynevezett kiterjesztett valószínűségi függvények (extended likelihood) segítségével végezzük el. Ilyen esetekben a modell paramétereit, amelyek a minták előfordulási valószínűségeit szabályozzák, egy bonyolultabb összefüggésrendszerben kell meghatározni.

A gyakorlatban, ha az egyes paraméterek függnek egymástól, a kiterjesztett valószínűségi függvény segítségével a modell többdimenziós paramétertérben kereshetjük meg a legjobb illeszkedést. Ez azt jelenti, hogy az egyes paraméterek értékeinek becsléséhez iteratív számításokra van szükség, amelyek célja, hogy minimalizálják a logaritmikus valószínűségi függvény értékét.

Fontos figyelembe venni, hogy az adatok, amelyeket egy Monte Carlo-szimuláció generál, nem mindig tükrözik pontosan a valós világot, ezért az ilyen típusú szimulációk és az optimális illesztés közötti különbségeket folyamatosan korrigálni kell. A Monte Carlo-szimulációk hasznosak lehetnek a paraméterek meghatározásában, azonban az adatok torzulásait (pl. a mérési hibák, a detektorok hatékonysága vagy az akceptálási veszteségek) figyelembe kell venni a végső becslés során.

A pontos paraméterbecslés érdekében a Monte Carlo szimulációk használata mellett célszerű az egyes mérések és szimulációk összehasonlítása is, hogy megbízhatóbb eredményeket kapjunk. Az ilyen típusú modellezéshez szoros együttműködés szükséges a fizikai folyamatok és a detektálás szimulációjának megértésében.