Grafická zobrazení rozdělení dat, jako jsou histogramy, frekvenční polygonové křivky nebo hustotní funkce, poskytují vizuální pohled na chování dat. Takové nástroje jsou nezbytné pro pochopení toho, jak se data chovají v různých situacích, a pomáhají identifikovat vzory, které mohou být jinak těžko rozpoznatelné.

Histogramy jsou jedním z nejběžnějších způsobů zobrazení rozdělení dat. Tyto grafy jsou tvořeny sloupci, jejichž výška reprezentuje počet nebo procento pozorování v daných intervalech. Například v rámci jednoho z výzkumů (Russell a kol., 2014) byly distribuovány průměrné hodnoty hladin glukózy v krvi během dvou období – kontrolního a s použitím bionického pankreatu. Histogram, vytvořený pomocí červených pruhů, ukazuje širokou rozmanitost těchto hladin v kontrolním období (od přibližně 99 mg/dl do 231 mg/dl), zatímco modré pruhy zobrazené během období s bionickým pankreatem naznačují, že rozdělení hladin je užší a soustředí se na nižší hodnoty, od 113 do 154 mg/dl. Tento rozdíl ukazuje, že bionický pankreat dosáhl nižších a stabilnějších hladin glukózy ve srovnání s kontrolním obdobím.

Ve statistice je možné pomocí takovýchto histogramů také vizualizovat dosažení terapeutických cílů. Například v případě hladin glukózy v krvi byla v grafu umístěna červená vertikální čára na hodnotě 154 mg/dl, což je doporučený terapeutický cíl podle Americké diabetické asociace. Graf ukazuje, že během používání bionického pankreatu dosáhli všechny dospělé osoby tohoto cíle, zatímco v kontrolním období to dokázalo pouze 45 % účastníků.

Kromě histogramů mohou být užitečným nástrojem i frekvenční polygonové křivky. Tyto křivky se vytvářejí spojením vrcholů sloupců histogramu pomocí čar nebo zakřivených čar. Tento typ zobrazení poskytuje plynulejší a přehlednější pohled na distribuci dat, což je výhodné zejména při porovnávání více datových souborů. Frekvenční polygonová křivka také umožňuje lépe pochopit, jak jsou data rozložena v různých intervalech.

V některých případech, jako je studie Kimm a kol. (2002), mohou být tyto křivky použity k zobrazení změn v distribuci dat během času. Studie sledovala dívky ve věku 9–10 let a zjistila, že jejich skóre aktivit podle Habitual Activity Questionnaire (HAQ) byla na začátku distribuce výrazně koncentrována na nižších hodnotách, ale s postupem času se rozšířila, přičemž u starších dívek se začaly objevovat rozdíly mezi rasovými skupinami.

Další příklad z oblasti zdravotních studií ukazuje, jak frekvenční křivky mohou pomoci pochopit rozdíly v účinnosti léčebných intervencí. V rámci SUPPORT studie (2010), která sledovala hladiny saturace kyslíkem u předčasně narozených dětí, byly frekvenční křivky použity k zobrazení rozdělení hladin kyslíku v krvi v různých cílových pásmech (85–89 % a 91–95 %). Křivky ukázaly, že většina dětí v cílovém pásmu 91–95 % měla hladiny kyslíku v tomto rozmezí, ale u některých dětí byly hodnoty vyšší. U skupiny s nižším cílovým pásmem (85–89 %) naopak mnoho dětí mělo hladiny kyslíku vyšší než stanovený cíl, což vedlo k analýze účinnosti různých léčebných režimů.

Frequentní křivky mohou být také užitečné při analýze laboratorních dat, jak ukazuje studie Stramera a kol. (2004), která zkoumala distribuci hladin alaninaminotransferázy (ALT) v krevních vzorcích. Křivky ukázaly, jak jsou hladiny ALT distribuovány mezi dárci krve s pozitivními výsledky na HIV-1 a HCV RNA, a umožnily identifikovat specifické vzory, které by byly obtížně rozpoznatelné pouze z tabulek čísel.

Tato grafická zobrazení jsou užitečná nejen pro vědecký výzkum, ale i pro praktické použití v klinických studiích, kde je potřeba rychle porozumět variabilitě dat a vyhodnotit účinnost léčebných intervencí. Zároveň ukazují na důležitost porozumění různým formám rozdělení dat a významu jejich vizualizace při rozhodování na základě dat.

Pochopení těchto metod je zásadní pro každého, kdo se chce zabývat analýzou dat v oblasti medicíny, biostatistiky nebo výzkumu. Důležité je nejen znát rozdíl mezi histogramem a frekvenčními polygonovými křivkami, ale také pochopit, jak tyto nástroje odhalují rozdíly a vzory v rozdělení dat, které by mohly mít zásadní význam pro závěry studie.

Jak chápat základní pojmy statistiky na příkladech datových sad

V tabulce 1.1 je uvedeno pět souborů umělých dat, která jsou údajně získána od 50 subjektů trpících koronárními srdečními chorobami. První sloupec zobrazuje identifikační čísla subjektů. Další sloupce představují různé observační proměnné. Dvě písmena F a M v druhém sloupci ukazují pohlaví subjektů, přičemž F označuje ženy a M muže. Ve třetím sloupci se nachází informace o kouření, kde písmena N, F a C označují, zda jsou subjekty nekuřáci (N), bývalí kuřáci (F) nebo aktuální kuřáci (C). Čtvrtý sloupec obsahuje údaje o klidovém srdečním tepu, pátý o srdečním tepu po cvičení a šestý sloupec o systolickém krevním tlaku v klidu. Každý z těchto 50 subjektů představuje observační jednotku, a datový soubor má tedy velikost 50, což je počet observačních jednotek i počet pozorování v souboru.

Pokud jsou pozorování dvou datových sad, která pocházejí od stejného subjektu, uspořádána do dvojic, každá taková dvojice představuje bivariátní pozorování. Soubor 50 těchto dvojic tvoří bivariátní datový soubor. Observačními jednotkami tohoto souboru jsou stále stejní 50 subjektů, přičemž pro každou jednotku existuje jedno bivariátní pozorování. Velikost bivariátního souboru zůstává 50.

Například dvojice, která se skládá z prvních údajů čtvrtého a pátého sloupce, tedy hodnoty 96 a 136, představuje bivariátní pozorování pro proměnné klidový srdeční tep a srdeční tep po cvičení. Soubor 50 takových dvojic tvoří bivariátní datový soubor, kde opět platí, že počet observačních jednotek a počet pozorování je 50.

Další příklad poskytuje studie financování programů kontroly tabáku v roce 2001, zveřejněná ve specializovaném článku časopisu New England Journal of Medicine (Gross a kol., 2002). Tabulka 1.2 zobrazuje výdaje na programy kontroly tabáku pro jednotlivé státy USA. První sloupec tabulky ukazuje identifikace států a další sloupce představují různé údaje, jako jsou výdaje na kontrolu tabáku, per capita příjmy z tabákových osad a doporučené výdaje podle CDC. Tato data se opět týkají konkrétních observačních jednotek, v tomto případě 50 států. Každý řádek tabulky obsahuje čtyři pozorování pro jeden stát, která odpovídají čtyřem různým proměnným. Tyto pozorování tvoří univariátní datový soubor, kde velikost souboru je 50.

Pokud by dvě pozorování, která patří k jednomu řádku, byla uspořádána do dvojice, tvořila by bivariátní pozorování. Například hodnoty 0.10 a 5.46, které se nacházejí ve druhém řádku, tvoří bivariátní pozorování pro dvě proměnné: odhad a doporučení CDC. Soubor 50 takových dvojic vytváří bivariátní datový soubor s 50 observačními jednotkami. Konečně, pokud bychom vzali všechny čtyři hodnoty z jednoho řádku, vznikne multivariátní pozorování.

Zajímavým příkladem pro pochopení základních pojmů je studie, která sledovala 11 pacientů s diagnózou paroxyzmální noční hemoglobinurie (PNH) před a po léčbě eculizumabem (Hillmen a kol., 2004). Data z této studie ukazují hodnoty pro různé proměnné u každého pacienta. První sloupec tabulky ukazuje identifikace pacientů, zatímco následující sloupce poskytují kvantitativní údaje o proměnných. Každý z těchto sloupců představuje univariátní datový soubor, kde každé pozorování odpovídá určitému pacientovi.

Všechny tyto příklady ukazují na důležitost rozlišování mezi různými typy datových souborů: univariátními, bivariátními a multivariátními. Každý z těchto souborů je tvořen specifickými observačními jednotkami a pozorováními, které nám umožňují analyzovat vzory a vztahy mezi různými proměnnými.

Co je třeba si uvědomit je, že v každé z těchto situací je klíčové správně chápat, jak jsou pozorování uspořádána a jaká vztah mezi nimi existuje. Bez správného pochopení struktury dat není možné správně interpretovat výsledky analýz. Kromě toho je důležité mít na paměti, že kvalita dat může výrazně ovlivnit výsledky statistických analýz. K tomu patří správné měření, kontrola za chybami v datech a adekvátní výběr metod analýzy.

Jak správně interpretovat a prezentovat párové dichotomní datové soubory?

V analýze párových dichotomních dat se často setkáváme s tabulkami, které ukazují distribuci čtyř typů observačních párů. Tyto páry jsou označeny jako #[YES, YES], #[YES, NO], #[NO, YES] a #[NO, NO]. Takto vytvořená tabulka umožňuje detailně sledovat, jak se v datech vyskytují různé kombinace těchto dvou kategorických hodnot v rámci dvou datových souborů. Důležité je si uvědomit, že každá buňka tabulky reprezentuje procenta a čísla, které odpovídají konkrétní kombinaci těchto hodnot.

Tabulka 7.5 je příkladem kontingenční tabulky pro párové dichotomní datové soubory. V první řadě a prvních dvou sloupcích jsou uvedena procenta různých typů observačních párů: %[YES, YES], %[YES, NO], %[NO, YES] a %[NO, NO]. Tato procenta jsou ukazatelem rozdělení těchto párů v rámci daného datového souboru. Další informace, jako %[YES|1] a %[NO|1], reprezentují procenta a čísla pro "YES" a "NO" v prvním datovém souboru, a %[YES|2] a %[NO|2] zase pro druhý datový soubor. Tento způsob zobrazení umožňuje snadno pochopit vztah mezi jednotlivými soubory a jejich vzorcovými kombinacemi.

Například, pokud máme dva datové soubory, z nichž jeden reprezentuje přítomnost určitého jevu u pacientů a druhý u kontrolních osob, tabulka ukáže, jak často se tyto jevy vyskytují v různých kombinacích mezi oběma skupinami. Je zajímavé si povšimnout, jak se procenta a čísla v jednotlivých buňkách tabulky odrážejí od součtů v posledních řádcích a sloupcích, což umožňuje pochopit distribuci jak v rámci jednotlivých skupin, tak mezi skupinami samotnými.

Pro lepší ilustraci tohoto principu slouží příklad, kde jsou zkoumány údaje o tonzilektomii u 85 případů Hodgkinovy choroby a jejich kontrolních osob. Tabulka ukazuje čtyři typy párů, které mohou nastat mezi těmito dvěma skupinami. Jednou z klíčových charakteristik této tabulky je, jak detailně rozkládá procenta případů s a bez historie tonzilektomie u pacientů a kontrol. Například, z celkového počtu 85 párů je 30,6 % (26) takových, kde jak pacienti, tak kontrolní osoby podstoupili tonzilektomii. Na druhé straně 17,6 % (15) párů ukazuje situaci, kdy pacient podstoupil tonzilektomii, ale kontrolní osoba ne.

Přestože tato tabulka poskytuje podrobné informace o distribuci, její interpretace by neměla zůstat na úrovni pouhého sčítání čísel. Mnohem důležitější je zaměřit se na to, jak tato distribuce odráží reálné riziko nebo pravděpodobnost daného jevu v obou skupinách, což je výzvou pro každého, kdo s těmito daty pracuje. Například ve zmíněném příkladu lze vidět, jak se pravděpodobnosti tonzilektomie liší mezi pacienty a kontrolními osobami, což může mít významné implikace pro analýzu rizik nebo zjištění souvislostí mezi různými faktory.

Takto strukturované údaje mohou také pomoci lépe pochopit, jak statistické metody, jako jsou poměry šancí (odds ratios), mohou vycházet z párových dat. Příkladem může být situace, kdy jsme schopni z tabulky vyčíst, jak se změnilo riziko pro jednotlivé skupiny při různých podmínkách. Pokud bychom například použili stejný poměr šancí pro nepařené dichotomní datové soubory (1,47), ale pro párové datové soubory to vyjde výrazně vyšší hodnotu (9), je to jasným důkazem, že různé přístupy mohou odhalit velmi rozdílné závěry. Takto zpracované informace ukazují, jak zásadní je volba správné metodologie pro konkrétní výzkum.

Důležité je také vědět, že i když výstupy z tabulek mohou být velmi podrobné, musí být interpretovány ve správném kontextu. Zatímco procenta a čísla poskytují cenné statistické informace, není možné je brát izolovaně. Je nutné vždy zvážit širší souvislosti a další faktory, které mohou ovlivnit výsledky. U párových dat je klíčové pochopit, že každý pár je propojen, což znamená, že změny v jednom datovém souboru mají vliv na druhý. Tento vztah je třeba zohlednit při analýze a při tvorbě závěrů.