Vytváření histogramů a tabulek četností je nezbytné pro efektivní vizualizaci a analýzu dat, zejména když se pracuje s rozsáhlými soubory údajů. Tyto nástroje pomáhají převést soubor čísel na srozumitelný obraz rozdělení a poměrů, což je klíčové pro správné vyhodnocení daného jevu.
Histogramy poskytují grafické zobrazení četností hodnot v daných intervalech, což je užitečné pro analýzu distribuce dat. Například histogram na obrázku 1.5 zobrazuje procenta odhadovaných výdajů na programy kontroly tabáku pro rok 2001, přičemž intervaly jsou stanoveny v hodnotách od 0 do 16 dolarů na obyvatele s šířkou 1 dolar. Tento přehled ukazuje rozdělení výdajů na tabákovou prevenci v různých státech a odhaluje důležitý vzorec – až 32 % států investuje méně než 1 dolar na obyvatele. Jiný histogram na obrázku 1.10, s širšími intervaly (2 dolary), ukazuje plynulejší rozdělení, ale nezachycuje klíčovou informaci o těchto nízkých výdajích.
Dalším příkladem je histogram srdečních tepů, kde je důležité dbát na to, aby intervaly měly stejnou šířku, například 5 tepů za minutu. Tento histogram by měl zahrnovat intervaly od 55 do 105 tepů za minutu a ukazovat rozdělení srdečních frekvencí. Pokud však intervaly neodrážejí skutečnou distribuci (například pokud některé intervaly obsahují pouze jedno nebo dvě čísla), histogram může poskytovat zavádějící výsledky. Tato nesrovnalost je důležitá, protože může vést k nesprávnému závěru o variabilitě dat.
U histogramu s intervaly 5 bpm se například může stát, že některé intervaly (například 55–60 tepů za minutu) obsahují pouze jednu hodnotu (56), zatímco jiné (60–65) dvě hodnoty (60 a 64). Takové nesrovnalosti v počtu hodnot, které jsou zahrnuty v jednotlivých intervalech, mohou zkreslit rozdělení a vést k nesprávnému porozumění datům.
Když jsou intervaly navrženy správně, histrogramy pomáhají odhalit vzory, které by jinak zůstaly skryté. Je zásadní zajistit, aby šířka intervalů odpovídala šířce datových hodnot. Pokud by intervaly byly příliš široké, mohly by zkreslit analýzu; pokud by byly příliš úzké, mohly by zdůraznit nepatrné variace, které nejsou pro rozdělení dat relevantní. Výběr optimální šířky intervalů je klíčovým rozhodnutím při vytváření histogramu, který má co nejpřesněji zachytit strukturu dat.
Při vytváření tabulek četností, kde jsou zobrazeny absolutní nebo relativní četnosti v jednotlivých intervalech, je důležité zachovat jasnost a čitelnost. Tabulka četností ukazuje, jak se data distribují napříč různými kategoriemi, což umožňuje rychlé vyhodnocení rozložení a identifikaci jakýchkoliv anomálií nebo neobvyklých vzorců.
V některých případech je pro analytika výhodné používat histogramy, které zobrazují procenta namísto absolutních četností, protože tyto histrogramy lépe ukazují, jak se data dělí v rámci celkové populace. Když jsou data vyjádřena v procentech, umožňuje to přehlednější porovnání mezi různými soubory údajů, protože každý histogram je normalizován na 100 % a zohledňuje celkový rozsah dané proměnné.
Je nezbytné si uvědomit, že histogramy a tabulky četností jsou nástroje pro analýzu, ale samy o sobě neodhalují příčiny nebo hlubší souvislosti dat. Základní porozumění tomu, jak data vznikla, jaké faktory mohou ovlivnit jejich distribuci, a co konkrétně tyto hodnoty reprezentují, je pro správnou interpretaci analýzy zásadní. Bez tohoto širšího kontextu mohou být výstupy z histogramu nebo tabulky četností zavádějící, protože i statisticky relevantní vzory mohou být ovlivněny vnějšími faktory nebo zkresleními v sběru dat.
Jak efektivně interpretovat distribuce dat pomocí grafických znázornění?
V oblasti analýzy dat se grafické znázornění distribucí dat ukazuje jako efektivní nástroj pro rychlou a srozumitelnou interpretaci informací. Grafy dokážou usnadnit pochopení a interpretaci komplexních datových souborů, přičemž některé typy grafů jsou určeny pro specifické typy dat. Tento text se zaměřuje na několik nejběžněji používaných grafických metod a jejich aplikaci v lékařských studiích.
Pie chart, nebo-li graf typu koláčový diagram, se používá k zobrazení distribuce kvalitativních dat, kde velikost jednotlivých částí koláče ukazuje procentuální zastoupení jednotlivých kategorií. Tento typ grafu je užitečný například pro zobrazení příčin úmrtí mezi sportovci, jak bylo popsáno ve studii Malhotry a kolegů (2015). Studie vyhodnocovala příčiny úmrtí mezi profesionálními fotbalisty, kde se ukázalo, že největší procento úmrtí bylo způsobeno silničními nehodami (30 %), následovalo onkologické onemocnění (22 %) a sebevraždy (14 %). Pomocí pie chart lze efektivně zobraziť distribuci těchto příčin úmrtí a jejich procentuální podíl.
Na druhé straně bar chart, tedy sloupcový graf, je vhodný pro zobrazení kvantitativních dat. Tento typ grafu využívá výšky sloupců k zobrazení množství nebo procentuálních hodnot v různých kategoriích. Například ve studii Molina a kolegů (2014) byl bar chart použit k prezentaci účinnosti různých léčebných režimů pro pacienty infikované Trypanosoma cruzi. Graf zobrazil, jaký procentní podíl pacientů zůstal negativní na DNA tohoto parazita po určité době sledování. Tento graf je ideální pro znázornění rozdílů mezi jednotlivými skupinami.
Existují také případy, kdy bar chart zobrazuje kvalitativní data v různých kategoriích. Příkladem může být studie Acker a kolegů (2018), která sledovala vývoj pacientů s mitrální stenózou. Výsledky byly prezentovány pomocí sloupcového grafu, kde každý sloupec představoval podíl pacientů v různých kategoriích NYHA (New York Heart Association) klasifikace a procentuální podíl pacientů, kteří zemřeli. Tento graf opět ukazuje, jak se rozdělily pozorování mezi různé kategorie, což pomáhá lépe porozumět vztahům mezi proměnnými.
Další technikou je stem-and-leaf display, která je užitečná pro zobrazení numerických dat ve formě, která umožňuje snadno identifikovat centrální tendence a rozptyl dat. Tento typ grafu se používá především pro menší datové soubory a poskytuje detailnější pohled na rozdělení dat, než by to dokázaly tradiční histogramy.
Důležité je také vědoma si toho, že každý typ grafu má své specifické využití a ne každý graf je vhodný pro všechny typy dat. Například pie chart je ideální pro kvalitativní data, která jsou vzájemně se vylučující, ale pro data, která obsahují mnoho kategorií nebo hodnot, může být lepší použít bar chart nebo jiný typ grafu. Navíc při práci s těmito grafy je kladeno důraz na správné zobrazení a výklad dat. Například v případě pie chart je nezbytné zajistit, že součet všech částí grafu bude skutečně 100 %, i když rozdíly mohou vzniknout kvůli zaokrouhlování.
Je rovněž důležité chápat rozdíl mezi grafy, které zobrazují popisnou statistiku, a těmi, které zobrazuji inferenční statistiku. Grafy jako pie chart nebo bar chart, které znázorňují rozložení dat nebo jejich distribuci, slouží k popisu datového souboru, zatímco jiné grafy mohou být použity k ilustraci výsledků statistických testů, které vyvozují závěry na základě vzorku dat.
Při interpretaci grafů je nezbytné dbát na kontext, v jakém jsou použity, a na to, zda zvolený typ grafu opravdu nejlépe odráží povahu dat, která jsou zkoumána. V některých případech může být vhodné použít více než jeden typ grafu, aby bylo možné zachytit všechny důležité aspekty datové distribuce.
Jak správně interpretovat a používat procenta a podíly ve statistice?
V oblasti statistiky jsou procenta a podíly dvě nejběžněji používané metody k vyjádření kvantitativních vztahů v rámci souborů dat. Jsou to ukazatele, které umožňují popisovat rozložení kvalitativních dat a identifikovat klíčové trendy v souborech pozorování. Přestože výpočty těchto hodnot jsou dnes prováděny snadno pomocí počítačů, důležité je správně chápat, co tyto statistiky skutečně znamenají a jaký mají význam pro prezentaci výsledků.
Procenta a podíly jsou v podstatě dvěma různými způsoby, jak popsat stejný údaj. Procenta vyjadřují podíl pozorování v rámci určité kategorie ve formě setin, zatímco podíl je čistý zlomkový poměr, který vyjadřuje, jaká část celkového souboru splňuje daný kritérium. Při práci s těmito hodnotami je důležité si uvědomit, jaký typ souboru dat máme k dispozici – zda se jedná o pozorování nebo o jednotky, které tato pozorování představují.
Pro výpočet podílu pozorování, která splňují určitý kritérium, se používá jednoduchý vzorec:
Pokud se zajímáme o podíl jednotek, tedy o to, kolik jednotek souboru splňuje dané kritérium, použijeme vzorec:
Pokud máme na mysli procenta, vychází to přímo z podílu, jen je potřeba jej vynásobit 100:
Procenta a podíly jsou tedy klíčové pro správnou interpretaci dat, ale je také nutné dbát na to, zda počítáme podíl pro pozorování, nebo pro jednotky, což může mít vliv na celkový výklad. V případě, že jedno pozorování patří více jednotkám (například pokud máme vícero měření pro jednu osobu), musíme si být vědomi toho, zda se jedná o podíl pozorování nebo jednotek.
Pro ilustraci si vezměme příklad z výzkumu. Pokud výzkumníci ve studii DeBaun et al. (2014) uvedli, že 94 % subjektů podstoupilo výstupní MRI vyšetření, tak to je vyjádřeno jako podíl pozorování, protože každý subjekt má jen jedno pozorování (byl podroben vyšetření, nebo nebyl). V tomto případě, pokud víme, že 94 % subjektů podstoupilo MRI, můžeme snadno spočítat, že 6 % těchto subjektů MRI neabsolvovalo, protože procenta z jedné dvojice (ano/ne) vždy dávají součet 100 %.
Tento přístup je obzvlášť užitečný u dichotomních dat, kde existují pouze dvě možné kategorie (například ano/ne, přítomno/absentní). Procenta pro jednotlivé kategorie pak poskytují jasný obraz o rozložení dat v souboru. Pro centrální tendence, jako je například průměr, je často důležité vědět, zda pozorování nebo jednotky splňují určité kritérium, a tedy jaký podíl celkové populace se nachází v určitých kategoriích.
Příkladem může být studie Sedmana et al. (1985), která se zabývá hladinami hliníku v plazmě u předčasně narozených dětí. Pokud 15 z 36 měření hliníku v plazmě překračují určitou hodnotu (10 μg/l), jde o procento pozorování. Kdybychom však analyzovali data podle jednotlivých dětí (18 dětí, každé s dvěma měřeními), dostali bychom jiné procento, které nám řekne, kolik dětí má alespoň jedno měření nad kritickou hranicí. Tento rozdíl v metodice počítání ukazuje, jak je důležité vědět, o jaký typ dat se jedná – zda máme na mysli měření nebo jednotky (např. jednotlivé děti).
Pokud je počet pozorování v souboru vysoký, použití procent může být ideální pro zjednodušení analýzy. Naproti tomu u menších souborů dat je vhodné upřesnit, zda se jedná o procenta pozorování nebo jednotek, aby nedocházelo k interpretativním chybám.
Kromě správného výpočtu a interpretace je také nezbytné mít na paměti, jaký vliv mají různé metody sběru dat na výsledky analýz. Při shromažďování dat, kde jednotky mohou mít více než jedno pozorování, je potřeba jasně rozlišovat mezi těmito kategoriemi, aby analýza byla co nejpřesnější a výsledek statistické analýzy byl správně pochopen.
Jak korelace a regresní analýza vysvětlují vztahy mezi kvantitativními proměnnými?
Rozptylový diagram v levém horním panelu ukazuje, že procenta hustých tkání u homozygotních dvojčat z Austrálie jsou mírně propojena. Ukazuje to koeficient korelace r = 0,61 ± 0,03 a n = 353. Tento koeficient korelace 0,61 se vztahuje k blízkosti 353 párů procent husté tkáně k přímce lineární regrese. Čtverec tohoto koeficientu, tedy 0,612 = 0,37, je koeficient determinace přímky lineární regrese. Jedna mínus čtverec koeficientu korelace (1,0 - 0,612) se rovná 0,63. To naznačuje, že pokud by byla použita přímka regresní analýzy a procenta husté tkáně prvního dvojčete k odhadu procent husté tkáně druhého dvojčete, celková chyba odhadů by činila až 63 % z celkové chyby základního odhadu, že husté tkáně všech dvojčat by byly totožné a rovny jejich průměru. Standardní chyba 0,03 je improvizovaný odhad standardní odchylky rozdělení koeficientů korelace replikovaných studií, pokud by byla studie replikována několik desítekkrát. Tento interval [0,55 až 0,67] odhaduje oblast rozdělení koeficientů korelace, která by zahrnovala přibližně 95 % koeficientů korelace. Hranice této oblasti jsou v rámci 10 % od koeficientu korelace 0,61, což může být považováno za návrh, že koeficient korelace je dostatečně reprodukovatelný.
Rozptylový diagram v pravém horním panelu ukazuje, že procenta hustých tkání u dizygotních dvojčat z Austrálie se šíří v podobných širokých rozpětích podobné výšky, bez ohledu na to, zda jsou husté tkáně prvního dvojčete malé nebo velké. Procenta hustých tkání u 246 dizygotních dvojčat nejsou mezi sebou nijak propojena. Koeficient korelace v tomto případě je r = 0,25 ± 0,06 a n = 246. Tento koeficient korelace 0,25 je relativně blízko nule a odpovídá zjištění z rozptylového diagramu, že procenta hustých tkání u 246 párů dizygotních dvojčat nejsou mezi sebou nijak propojena. Čtverec tohoto koeficientu korelace (1,0 - 0,252) se rovná 0,94, což naznačuje, že pokud by byla použita přímka lineární regrese a procenta husté tkáně prvního dvojčete k odhadu procent husté tkáně druhého dvojčete, celková chyba odhadů by činila až 94 % z celkové chyby základního odhadu, že husté tkáně všech dvojčat jsou totožné a rovny jejich průměru. Standardní chyba 0,06 je opět improvizovaný odhad standardní odchylky rozdělení koeficientů korelace replikovaných studií. Tento interval [0,13 až 0,37] naznačuje oblast rozdělení koeficientů korelace, která by zahrnovala 95 % koeficientů korelace. Většina replikovaných studií by vykazovala malé hodnoty koeficientu korelace, což potvrzuje, že procenta hustých tkání dizygotních dvojčat nejsou vzájemně propojena.
V příkladu uvedeném v práci Battle et al. (1988) je použita regresní analýza k zobrazení vztahu mezi koncentracemi amonných iontů v moči a aniontovými mezerami v moči u 53 subjektů. Tento vztah je zobrazen rozptylovým diagramem, kde jsou body označující jednotlivé dvojice koncentrace amonných iontů a aniontových mezer. Regresní rovnice Y = -0,42x + 23,6 ukazuje vztah mezi těmito dvěma proměnnými, přičemž Y představuje průměrnou koncentraci amonných iontů a x představuje hodnotu aniontové mezery. Koeficient korelace r = -0,72 naznačuje, že existuje silná negativní korelace mezi těmito dvěma proměnnými. To znamená, že při odhadu koncentrace amonných iontů na základě aniontové mezery by celková chyba odhadu činila přibližně 48 % chyby základního odhadu, že koncentrace amonných iontů jsou stejné a rovné jejich průměru.
Pokud se podíváme na subjekty, kteří mají a nemají změněnou distální kyselost moči, zjistíme, že existují výrazné rozdíly mezi těmito dvěma skupinami. Subjekty se změněnou distální kyselostí moči mají všechny pozitivní aniontové mezery a nízké koncentrace amonných iontů, zatímco subjekty bez změněné kyselosti mají negativní aniontové mezery a vysoké koncentrace amonných iontů. Když jsou tyto dvě skupiny hodnoceny samostatně, mezi koncentracemi amonných iontů a aniontovými mezerami není žádný vztah.
Je důležité si uvědomit, že koeficient korelace, i když může naznačovat silný vztah mezi dvěma proměnnými, neznamená nutně příčinnou souvislost. Důležité je také brát v úvahu kontext a faktory, které mohou ovlivnit tento vztah. Když se vztah mezi proměnnými zkoumá, je nezbytné zohlednit, jaký typ dat a jaká metoda byla použita, aby byla analýza co nejpřesnější a nejrelevantnější pro daný výzkum. Rozpoznání silné nebo slabé korelace neznamená automaticky, že je mezi proměnnými příčinný vztah. Další analýzy a zohlednění dalších proměnných mohou být nezbytné pro pochopení komplexnosti těchto vztahů.
Jak měřit sílu spojitosti mezi dvěma kvalitativními proměnnými?
Při zkoumání spojitosti mezi kvalitativními proměnnými, například mezi nemocemi a rizikovými faktory, se často využívají různé statistické metody k vyhodnocení síly této spojitosti. Tyto metody nám umožňují vyhodnotit, jak silně jsou jednotlivé proměnné propojeny a jaký vliv mohou mít na vývoj konkrétního zdravotního stavu. V této kapitole se podíváme na několik příkladů, které ukazují, jak lze tuto spojitost měřit pomocí různých statistických ukazatelů.
Příklad 9.2.5 ukazuje využití poměru šancí (odds ratio, OR) k hodnocení spojitosti mezi diabetickou nefropatií a hypertenzí u rodičů. Tento poměr ukazuje, že u mladých pacientů s inzulín-dependentním diabetem, kteří mají rodiče trpící hypertenzí, je pravděpodobnost vzniku diabetické nefropatie 3,7krát vyšší než u těch, kteří nemají rodiče trpící hypertenzí. Poměr šancí je užitečný nástroj, který nám pomáhá pochopit, jak silně může určitý faktor (v tomto případě hypertenze u rodičů) ovlivnit riziko vzniku nemoci. V tomto případě je riziko výskytu diabetické nefropatie mezi sub-kohortou 49 pacientů s hypertenzním rodičem o 2,3krát vyšší než u sub-kohorty 34 pacientů bez hypertenzního rodiče.
Důležité je také upozornit na to, že tento poměr šancí není vždy přímo ekvivalentní poměru prevalenčních sazeb, což je další ukazatel, který se v takových analýzách často používá. Prevalenční sazba ukazuje, jak často se daný zdravotní stav vyskytuje v určité populaci a může poskytnout důležité informace o tom, jaký vliv na nemoc má konkrétní faktor.
Další příklad 9.2.6 ukazuje použití rizikových poměrů (hazard ratio) k hodnocení rizika vzniku diabetu 2. typu mezi sub-kohortami osob s různými vzory nadváhy. Tento příklad ukazuje, že riziko vzniku diabetu 2. typu je mezi osobami, které v průběhu života měly nadváhu, mnohem vyšší než mezi těmi, kteří nikdy nadváhu neměli. Rizikové poměry ukazují, jaký vliv má určitý faktor na časový průběh vzniku nemoci. V tomto případě zjistíme, že riziko vzniku diabetu 2. typu je 3,6krát vyšší u těch, kteří v průběhu života trpěli nadváhou.
Pro ilustraci, v tabulce 9.7 jsou uvedeny prevalenční sazby pro různé skupiny subjektů podle toho, zda v průběhu života trpěli nadváhou, nebo ne. Z výsledků vyplývá, že mezi sub-kohortou, která nikdy neměla nadváhu, je výskyt diabetu 2. typu 5,1 %, zatímco u těch, kteří v průběhu života trpěli nadváhou, je to 19,7 %. Tento poměr prevalenčních sazeb odpovídá přibližně rizikovému poměru z předchozí analýzy a ukazuje nám, jak důležitý je faktor nadváhy pro rozvoj diabetu.
Zajímavé je také zjištění, že u osob, které netrpěly nadváhou v období rané dospělosti (17–26 let), je prevalenční sazba diabetu 2. typu nižší než u těch, kteří měli nadváhu v tomto období. Tento fakt zdůrazňuje důležitost časového faktoru a ukazuje, jak může mít období rané dospělosti klíčový vliv na vznik některých zdravotních problémů v pozdějším věku.
Pokud se podíváme na další příklady měření síly spojitosti mezi kvalitativními proměnnými, například ve studiích o progresi MDS (myelodysplastický syndrom) nebo ve výzkumu mutací, můžeme vidět, že výsledky jsou podobné. Poměr výskytu progresivního onemocnění mezi sub-kohortami s pozitivními a negativními mutacemi ukazuje, že rozdíl mezi těmito skupinami je výrazný. V tomto případě ukazuje rozdíl incidence mezi oběma skupinami 40 %, což znamená, že u pacientů s pozitivní mutací je progresivní onemocnění častější.
Je důležité si uvědomit, že pro přesné hodnocení síly spojitosti mezi kvalitativními proměnnými je třeba použít vhodné statistické ukazatele. Poměr šancí, rizikový poměr a prevalenční sazby jsou základními nástroji, které poskytují cenné informace o tom, jak faktory jako genetika, životní styl a další mohou ovlivnit zdraví. Tyto metody umožňují lépe pochopit vzorce onemocnění a mohou sloužit jako základ pro prevenci a léčbu různých zdravotních problémů.
Jak správně rozlišovat mezi kožními onemocněními: Klíč k diferenciální diagnostice v dermatopatologii
Jak daleko může člověk zajít, aby ochránil to, co miluje?
Proč je J. Warren tajemným boxerem a co o něm nevíme?
Jak využít leteckou perspektivu a ovládání hran pro realistické akvarely
Jak technologie GNSS a InSAR přispívají k monitorování sopečné činnosti a pohybu magmatu?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский