Průměr je jedním z nejzákladnějších a nejdůležitějších ukazatelů statistiky, který se používá k popisu centrální tendence v souboru dat. Jeho výpočet je jednoduchý – jedná se o součet všech pozorování dělený jejich počtem. Průměr však není pouze aritmetickou hodnotou; jeho význam spočívá v jeho schopnosti reprezentovat střed hodnot v daném souboru dat. Jak již bylo uvedeno, rozdíl mezi průměrem a jednotlivým pozorováním se nazývá odchylka. Tato vlastnost průměru je zásadní: součet všech odchylek od průměru je vždy roven nule.
Pokud označíme průměr jako MEAN a konkrétní pozorování jako OBSERVATION, odchylka mezi průměrem a pozorováním se vyjadřuje vzorcem:
V případě souboru dat uspořádaného podle velikosti a rovnoměrně rozděleného, průměr vykazuje zajímavou vlastnost. Pokud rozložíme pozorování podél osy, kde hodnoty rostou, součet vzdáleností mezi průměrem a pozorováními menšími než průměr je stejný jako součet vzdáleností mezi průměrem a pozorováními většími než průměr. Tento fenomén ukazuje, jak je průměr symetrickým zobrazením centrální tendence.
Pro názornější pochopení si můžeme představit různé soubory dat, například údaje o bolesti, jejichž distribuce se mohou lišit v závislosti na tom, jak jsou hodnoty rozloženy. Při analýze čtyř různých souborů bolestivých indexů vidíme, jak se průměr používá k označení středu distribuce, a jak tento průměr odráží vztah mezi menšími a většími hodnotami. U souborů dat s normální, symetrickou distribucí, jako je set 3.1, průměr skutečně funguje jako indikátor středu distribuce. Součet pozitivních odchylek je roven součtu negativních odchylek, což potvrzuje symetrii dat kolem průměru.
Přechodem na soubory dat, které mají šikmou distribuci, jako například soubor 3.3 a 3.4, se začínají projevovat složitější vztahy mezi průměrem a daty. U těchto souborů průměr není ve středu distribuce, ale je stále bodem rovnováhy mezi pozitivními a negativními odchylkami. To znamená, že průměr může být vzdálen od většiny hodnot, přičemž zachovává svůj statistický význam.
V tomto kontextu je průměr stále užitečný, ale pro podrobnější analýzu, zejména v případech šikmých distribucí, bychom měli vzít v úvahu další ukazatele, jako je standardní odchylka, která nám poskytne informace o rozptýlení dat. Standardní odchylka měří průměrnou vzdálenost hodnot od průměru a poskytuje hlubší pohled na variabilitu dat. Ve spojení s průměrem je standardní odchylka nástrojem, který pomáhá pochopit nejen střední hodnotu, ale také šíři a rozložení hodnot v souboru dat.
U souboru s daty o srdečním tepu například zjistíme, že průměrný tep 80 bpm může představovat střed distribuce klidového tepu. Pokud jsou všechny odchylky pozitivní a negativní stejné, můžeme tvrdit, že distribuce je symetrická. V praxi však můžeme narazit na situace, kdy jsou některé hodnoty těsněji seskupeny kolem průměru, zatímco jiné se mohou rozptýlit na opačných koncích měřítka. V takových případech je použití standardní odchylky nezbytné pro lepší pochopení rozložení dat a pro identifikaci, jak se hodnoty liší od průměru.
U distribucí, které jsou šikmé (například levostranná šikmost), může být průměr stále platným ukazatelem centrální tendence, ale pro přesnější analýzu je užitečné mít k dispozici nejen průměr, ale i standardní odchylku a další statistické nástroje, které nám umožní rozpoznat a vyhodnotit šikmost a šířku distribuce.
Je rovněž důležité si uvědomit, že průměr, i když je užitečný, není vždy nejlepší ukazatel pro všechna data. Například u souborů dat s extrémními hodnotami (outliers) může být průměr zkreslený. V těchto případech může být lepší použít medián, který není ovlivněn extrémy, a poskytuje lepší obraz o středu distribuce v těchto specifických situacích.
Jak správně interpretovat průměr a směrodatnou odchylku?
Průměr a směrodatná odchylka jsou dvě klíčové statistické veličiny, které se často používají k popisu rozložení dat v různých výzkumech. Tyto hodnoty mohou na první pohled poskytnout určité představy o tom, jaká je centrální tendence a rozptýlení dat, ale jejich interpretace není vždy zcela jednoznačná.
Příklad 3.2.3.1 (Anavekar a kol., 2018) uvádí hodnoty 70,3 ± 21,3 ml za minutu na 1,73 m², které popisují průměr a směrodatnou odchylku odhadu glomerulární filtrace (GFR) u 14 527 subjektů. Tento průměr naznačuje, že střední hodnota GFR je kolem 70,3 ml za minutu na 1,73 m². Směrodatná odchylka, která činí 21,3, ukazuje na míru rozptylu těchto hodnot. Může to znamenat, že některé hodnoty GFR byly mnohem menší nebo větší než průměr? Historgram v grafu 1 (Obr. 1.6) ukazuje, že rozložení GFR odhadů se pohybuje mezi 16 a 140 ml za minutu na 1,73 m². Existuje tedy značná variabilita hodnot v obou směrech.
Podobně příklad 3.2.3.2 (Walker a kol., 2012) uvádí hodnoty 5,4 ± 2,1 a 5,3 (2,3) pro průměrné skóre závislosti na cigaretách u subjektů ve dvou různých skupinách léčby (cytisínová skupina a skupina nikotinové náhrady). Průměrné hodnoty 5,4 a 5,3 označují střední hodnoty pro dvě skupiny, ale směrodatné odchylky 2,1 a 2,3 nám nepodávají dostatečně jasný obraz o tom, jak rozptýlené jsou výsledky v obou skupinách. Zůstává otázkou, zda jsou rozdíly mezi těmito hodnotami významné nebo zda jsou hodnoty v každé skupině výrazně různorodé.
Kromě těchto základních statistických ukazatelů, které poskytují informace o střední hodnotě a rozptýlení dat, je důležité si uvědomit, že značka „±“ může označovat buď směrodatnou odchylku (SD), nebo standardní chybu průměru (SEM). To může vést k určitému zmatení, neboť standardní chyba průměru, která je vždy menší než směrodatná odchylka, vyjadřuje míru variability průměru v rámci opakovaných studií, nikoliv rozptyl samotných měření.
Další způsob, jak lépe porozumět těmto hodnotám, je použít průměr a směrodatnou odchylku k určení oblasti, která by mohla obsahovat většinu hodnot pozorování. Pokud předpokládáme, že data mají normální rozdělení (Gaussovo rozdělení), můžeme odhadnout, že přibližně 95 % hodnot leží v intervalu mezi průměrem minus 1,96 krát směrodatná odchylka a průměrem plus 1,96 krát směrodatná odchylka.
Gaussovo rozdělení je jedním z nejdůležitějších a nejčastěji používaných rozdělení v statistice. Tento model předpokládá, že data jsou symetrická kolem střední hodnoty a že většina hodnot se nachází blízko této hodnoty, přičemž pravděpodobnost výskytu hodnot daleko od střední hodnoty klesá. Rozdělení je graficky znázorněno hladkou křivkou, která je symetrická a má jediný vrchol, což jí dává tvar zvonové křivky, známé také jako „normální křivka“ nebo „Gaussova křivka“.
V případě Gaussova rozdělení je střední hodnota (průměr) označována jako „parametr umístění“, neboť určuje, kde je umístěn vrchol křivky. Směrodatná odchylka je pak parametrem „tvary“, který vyjadřuje, jak široce nebo úzce je tato křivka rozprostřena. Čím větší je směrodatná odchylka, tím širší je křivka.
Podle tabulky 3.4 je možné zjistit, jak velká část hodnot leží v určitých oblastech pod Gaussovou křivkou. Například oblast mezi průměrem minus 1 směrodatná odchylka a průměrem plus 1 směrodatná odchylka pokrývá přibližně 68 % dat, zatímco mezi průměrem minus 1,96 směrodatné odchylky a průměrem plus 1,96 směrodatné odchylky je to 95 %. Tyto informace nám pomáhají odhadnout, jak pravděpodobné je, že jednotlivé hodnoty budou ležet v určitém rozsahu od střední hodnoty.
Ve statistice se však často používá pojem „normální rozdělení“ spíše pro popis dat, která jsou rovnoměrně rozložena kolem střední hodnoty, což je často jiný případ než skutečné rozdělení měření u normálních lidí. Proto v některých situacích může být lepší hovořit o Gaussově rozdělení, než o normálním rozdělení.
Jak správně interpretovat data z nepaired kvalitativních souborů?
Při analýze nepaired kvalitativních dat je kladeno důraz na správné vyhodnocení poměru šancí (odds ratio) a poměru procent (risk ratio). Tyto nástroje slouží k odhadu vztahů mezi vystavenými a nevystavenými subjekty v dané studii, kdy hlavní otázkou je, jak vystavení určitému faktoru ovlivňuje pravděpodobnost výskytu určitého jevu, například nemoci. Významným přínosem tohoto přístupu je schopnost odhadnout relativní riziko daného jevu, přičemž klíčové je porozumění tomu, jakým způsobem mohou být výsledky zkreslené počtem případů a kontrol v dané studii.
Ve výše uvedeném příkladu je zřejmé, jakým způsobem se srovnání procentuálního výskytu homozygotnosti pro určitou genetickou variantu v různých skupinách (např. mezi pacienty a zdravými kontrolami) může použít k určení síly asociace mezi genetickým faktorem a rizikem srdečního selhání. Statistická hodnota poměru šancí (5,54) ukazuje, že pravděpodobnost, že pacienti s tímto genetickým faktorem budou mít srdeční selhání, je více než pětkrát vyšší než u kontrol, kteří tento faktor nemají. Tato hodnota je významná, protože interval spolehlivosti [2,68 až 11,45] vylučuje hodnotu 1,0, což znamená, že pravděpodobnost je reálně statisticky významná. Při tom však není možné zapomínat na omezení tohoto výpočtu – hodnota může být zkreslena konkrétními podmínkami studie, jako je její design a velikost vzorku.
Zajímavým bodem pro lepší porozumění je, že samotná hodnota poměru šancí nemusí nutně znamenat přímou predikci rizika. Je spíše pomocným ukazatelem, který nám naznačuje, jak moc se mění pravděpodobnost výskytu určité události (v tomto případě srdečního selhání) u vystavených vůči nevystaveným osobám. To znamená, že poměr šancí je vnímán jako přibližný ukazatel rizika, zejména pokud je onemocnění vzácné.
Příklad modifikovaného výzkumu Small a kol. (2002) ukazuje, jak může i malá změna v počtu kontrol dramaticky ovlivnit interpretaci procentuálních podílů. Při použití výrazně většího počtu kontrol (například 840 místo původních 84) lze dosáhnout odlišných výsledků, přestože poměr šancí zůstává stejný. Toto ukazuje na důležitost velikosti vzorku při vyhodnocování výsledků studií, protože i při identickém poměru šancí může jiný poměr případů a kontrol vést k odlišným závěrům ohledně procentuálního výskytu daného jevu.
Dalším klíčovým faktorem, který je třeba mít na paměti, je význam vhodného návrhu studie. Pokud není správně navržen, může být interpretace výsledků velmi zkreslená. Je nutné zajistit, aby výběr případů a kontrol nebyl ovlivněn historií vystavení rizikovým faktorům. Pokud by tomu tak bylo, výsledky studie by mohly vést k falešným závěrům.
Další oblastí, na kterou je třeba se zaměřit, je statistická významnost. I když je poměr šancí statisticky významný, je vždy důležité zohlednit šíři intervalu spolehlivosti. Pokud je interval příliš široký, může to znamenat, že výsledky jsou citlivé na konkrétní podmínky studie a jejich opakovatelnost může být nízká. Proto by výsledky měly být vždy považovány za předběžné náznaky, které je nutné potvrdit dalším výzkumem.
Pokud jde o interpretaci výsledků poměrů šancí, měli bychom také být opatrní při jejich generalizaci na širší populaci. Výsledky studií jsou často specifické pro konkrétní vzorek, a přestože mohou naznačovat silnou asociaci mezi faktorem a rizikem, nelze je automaticky vztahovat na širší populaci bez dalšího ověření.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский