Ve statistikách používaných v lékařském výzkumu je často nutné vyhodnocovat různé metody pro popis dat, mezi něž patří aritmetický průměr, medián a geometričtý průměr. Tyto metody se používají k charakterizaci distribucí hodnot, které mohou být ovlivněny extrémními hodnotami nebo mohou vykazovat asymetrické rozdělení. Tento text se zaměřuje na geometričtý průměr, jeho význam a využití v analýze dat, spolu s pojetím šikmosti, která se často vyskytuje v distribucích lékařských dat.

Příkladem je studie, která hodnotí účinnost a bezpečnost kombinace oxantelu pamoátu a albendazolu u dětí infikovaných T. trichiura. Studie rozdělila děti do čtyř skupin a zjistila účinnost různých dávkování těchto léků. V tabulce se použil geometrický průměr pro vyjádření počtu vajíček na gram stolice, což může být užitečné pro porovnání výsledků mezi jednotlivými skupinami. Geometrický průměr je definován jako n-tý odmocnina součinu všech pozorovaných hodnot, což může být užitečné pro snížení vlivu extrémních hodnot v souboru dat.

Při analýze geometrického průměru v tomto kontextu je ale často obtížné přesně říci, co tento průměr skutečně vyjadřuje. Je-li geometrický průměr 796 pro skupinu dětí před léčbou a 31 po léčbě, nelze s jistotou určit, zda tento průměr odráží skutečný střed distribuce dat nebo zda je výsledkem extrémních hodnot, které ovlivnily výpočet. To znamená, že geometrický průměr může být užitečný, ale nemůže zcela nahradit jiné statistické ukazatele, jako je medián, který může lépe reflektovat skutečný střed dat v případě silně asymetrických distribucí.

Podobná situace nastává i ve studii, která porovnávala účinnost vakcín IIV3-HD a IIV3-SD u dospělých starších 65 let. Geometrické průměry titrů protilátek po vakcinaci ukázaly vyšší hodnoty u skupiny, která dostala vakcínu s vyšší dávkou hemaglutininů (IIV3-HD), než u skupiny s nižší dávkou (IIV3-SD). Opět, geometrický průměr zde pouze naznačuje, že výsledky mohou být blízké mediánům, ale nelze přesně určit, zda jsou výsledky dat homogenní nebo zda existují široké variace mezi jednotlivci v těchto skupinách.

V lékařském výzkumu bývá běžné, že data vykazují šikmost, což znamená, že distribuce hodnot není symetrická. Data mohou být "pravačivě šikmá", kdy většina hodnot leží na nižší straně a několik extrémních hodnot vytváří dlouhý "ocásek" na straně vyšších hodnot. Naopak "levošikmá" distribuce znamená, že většina hodnot je koncentrována na vyšších hodnotách a ocásek je na straně nižších hodnot. Pro stanovení šikmosti dat existují různé koeficienty, které umožňují kvantitativně popsat, jak moc je distribuce asymetrická.

Jedním z nejběžnějších ukazatelů je koeficient šikmosti SKHalf, který vychází z rozdílu mezi procentem hodnot ve spodní a horní polovině distribuce. Pokud je tento rozdíl nula, distribuce je symetrická. Pokud je hodnota kladná, distribuce je praváčivě šikmá, pokud záporná, je levošikmá. Koeficient SKMean měří rozdíl mezi průměrem a procentuálním rozdělením hodnot nad a pod tímto průměrem. Podobně koeficienty SKMedian a SKMode měří rozdíl mezi průměrem a mediánem či modelem distribuce a vyjadřují, jak dalece jsou data asymetrická.

Při interpretaci těchto koeficientů je třeba brát v úvahu, že ačkoli hodnoty jako SK ≈ 0 mohou naznačovat symetrické rozdělení, v praxi často narazíme na šikmé distribuce, které mohou zcela změnit naše závěry o datech. Ve zdravotnických studiích, kde je možné, že některé hodnoty jsou extrémně vysoké nebo nízké, je důležité nejenom spoléhat na aritmetický průměr, ale zohlednit i rozptyl, medián a případně i sklon distribuce, což poskytne jasnější obraz o tom, jak se data chovají.

Kromě základních statistických ukazatelů, jako je aritmetický průměr a geometrický průměr, je tedy nezbytné zohlednit také šikmost distribuce a další ukazatele variability, aby bylo možné lépe porozumět rozdělení dat. V lékařských studiích to může mít zásadní význam pro správné vyhodnocení účinnosti léčebných postupů nebo pro posouzení bezpečnosti léků. Různé metody vyžadují odlišné přístupy k analýze dat a mohou poskytnout různé pohledy na to, jakými způsoby lze danou situaci nejlépe interpretovat.

Jak správně interpretovat statistické korelace a regresní analýzy?

V analýze vztahů mezi dvěma kvantitativními proměnnými je často kladeno důraz na statistické signifikance a korelační koeficienty. Avšak i při zjištění statisticky významného výsledku není vždy zřejmé, zda tento vztah má skutečnou klinickou nebo vědeckou hodnotu. Nejlepším způsobem, jak tyto vztahy správně interpretovat, je věnovat pozornost tomu, jak jsou prezentovány samotná data a jaký význam má jejich grafické zobrazení.

V příkladu studie, která se zabývá změnami regurgitačních otvorů po cvičení, je vztah mezi transtrikuspidálními tlakovými gradienty a těmito změnami vyjádřen korelačním koeficientem 0,4 s hodnotou P menší než 0,001. Tato statistika naznačuje, že mezi těmito dvěma proměnnými existuje určitý vztah, který by mohl být považován za významný. Avšak samotný koeficient 0,4 je poměrně blízko nule, což naznačuje, že korelace není silná. Korelace 0,4 znamená, že lineární regresní model, který tento vztah znázorňuje, může být zavádějící a poskytovat neúplný obrázek o skutečných změnách.

Když jsou výsledky prezentovány pomocí regresních přímek, mohou být tyto přímky často zavádějící, protože mohou maskovat skutečnou variabilitu dat. V příkladu je regrese zobrazena pomocí lineární křivky, což by mohlo dávat dojem silného vztahu, ale ve skutečnosti scatterploty ukazují na rozptýlení dat, což naznačuje, že mezi měřenými proměnnými není skutečně významný vztah. Použití regresní přímky v tomto případě může odvádět pozornost od skutečných datových trendů.

Další příklad z výzkumu Lockleyho a kolegů ukazuje, jak je korelace mezi délkou spánku a pracovními hodinami internů ve zdravotnických zařízeních popisována. Ačkoliv hodnota korelačního koeficientu r = -0,57 a P-hodnota menší než 0,001 ukazují na významnou inverzní korelaci, grafické znázornění dat ukazuje, že mezi těmito dvěma faktory neexistuje žádný skutečný vztah. Zobrazené hodnoty spánku a pracovních hodin scatterují bez jasného vzorce, což naznačuje, že vztah mezi těmito dvěma proměnnými není vůbec významný, i když statisticky vypadají jako korelované. Když se odstraní regresní přímka z grafu, stává se jasné, že mezi těmito proměnnými není žádná reálná souvislost.

Podobně, když Leonard a kolegové zmiňují vztah mezi kumulativní dávkou glukokortikoidů a výškou pacientů, statistiky ukazují na slabou inverzní korelaci (r = -0,28 až -0,38) s p-hodnotami menšími než 0,05, což by mohlo naznačovat statistickou významnost. Avšak tyto hodnoty jsou blízko nule, což opět znamená, že vztah je příliš slabý na to, aby měl klinický význam. Důležité je si uvědomit, že P-hodnota neznamená vždy skutečnou důležitost nebo silný vztah mezi proměnnými.

Je třeba si uvědomit, že samotná statistická významnost, vyjádřená nízkou P-hodnotou, není zárukou, že vztah mezi proměnnými má praktický nebo klinický význam. P-hodnoty pouze naznačují, že je možné vyloučit náhodné vysvětlení výsledků, ale neznamená to, že vztah mezi proměnnými je silný nebo relevantní v reálném světě. Korelační koeficienty, pokud jsou příliš blízko nule, naznačují, že i když vztah může být statisticky významný, jeho praktická hodnota je nízká.

Naopak, scatterploty jsou nezbytné k tomu, aby bylo možné vidět, jak skutečně vypadají data a jak silný nebo slabý je vztah mezi proměnnými. Korelace a regresní analýza by měly být vždy doplněny grafickými znázorněními, která ukazují skutečný rozptyl dat a pomáhají se vyhnout mylným závěrům. To je klíčové nejen pro vědeckou práci, ale i pro klinickou praxi, kde rozhodnutí často závisí na tom, jak správně interpretujeme data a jejich vztahy.

V konečném důsledku je důležité, aby čtenář rozuměl, že i když statistická analýza může ukázat na vztah mezi proměnnými, tento vztah nemusí vždy mít praktický význam. Korelační koeficienty a statistická významnost by měly být interpretovány v kontextu konkrétního výzkumu a vždy by měly být podpořeny grafickými vizualizacemi, které odhalí skutečnou povahu dat a vztahů.