Procenta představují část celku, která je zvyklá na vyjádření určitého podílu pozorovaných jednotek. Příkladem může být studie Chosidowa a kol. (2010), kde je procento pacientů, kteří byli bez vší hlavy na 15. den studie, vyjádřeno v procentech z celkového počtu pacientů, kteří se účastnili studie. Například ve skupině s ivermektinem bylo 95,2 % subjektů bez vší, zatímco ve skupině s malationovou lotion bylo 85 %. Tato procenta reprezentují podíl subjektů, které byly na konci studie bez vší, přičemž každé procento bylo vypočítáno na základě počtu pozorovaných subjektů. Procenta mohou také odrážet podíl domácností, které byly na daný den bez vší, přičemž v tomto případě byly domácnosti pozorovanými jednotkami.
V takových případech, kdy procenta reprezentují podíl subjektů nebo domácností, je důležité si uvědomit, že procenta mohou vyjadřovat nejen podíl pozorovaných jednotek, ale i podíl pozorování v daných skupinách. Tento rozdíl je zvláště patrný v případě, kdy se zaměřujeme na různé úrovně agregace dat – například na úroveň jednotlivých subjektů versus domácností.
Dalším příkladem jsou polytomní datové sady, které obsahují pozorování, která spadají do více než dvou kategorií. Příklad z práce DeBauna a kol. (2014) ukazuje, jak se při analýze neurologických událostí mezi 97 subjekty v observační skupině rozlišují kategorie jako mrtvice, TIC (tichá cerebrální inaktivita), TIA (transientní ischemická ataka) a žádná neurologická událost. Procenta výskytu těchto událostí v jednotlivých kategoriích – 7 %, 7 %, 2 %, a 84 % – poskytují celkový přehled o rozdělení pozorovaných jevů a tím i o jejich výskytu mezi sledovanými subjekty.
V případě polytomních datových sad je nezbytné si být vědom toho, že každá kategorie poskytuje specifický pohled na distribuci pozorování a že každé procento, které vyjadřuje podíl pozorovaných jednotek v dané kategorii, představuje jednu z možností, jak o těchto událostech přemýšlet. Tento přístup pomáhá nahlédnout do struktury a rozložení dat.
Pokud jde o kvantitativní datové sady, jejich analýza je zaměřena na rozdělení těchto dat – jejich umístění, variabilitu a asymetrii. Příkladem je studie, která analyzuje výdaje na kontrolu tabáku v amerických státech. Studie ukázala široký rozptyl výdajů mezi státy, s hodnotami od 0,10 USD až po 15,47 USD na obyvatele. V tomto případě procenta, jako například 32 % států, které vydaly méně než 1 USD na obyvatele, nebo 82 % států, které vydaly méně než 5 USD na obyvatele, efektivně odhalují rozsah a asymetrii datového rozdělení. Takto získaná procenta jsou cenným nástrojem k porozumění nejen centrální tendenci dat, ale i jejich variabilitě a rozdělení.
Při analýze dat je rovněž nezbytné si uvědomit, že rozdíly mezi skupinami mohou být vyjádřeny nejen pomocí procent, ale i prostřednictvím dalších statistických ukazatelů. Například v případě studie o endovaskulární terapii versus lékařské terapii pro pacienty po cévní mozkové příhodě bylo zjištěno, že 45 % pacientů v endovaskulární terapii bylo nezávislých na každodenním životě 90 dní po léčbě, oproti 17 % pacientů v lékařské terapii. Tento rozdíl ukazuje na význam procenta pro lepší pochopení rozdílů mezi různými terapeutickými přístupy.
Je však důležité věnovat pozornost nejen samotným procentům, ale i jejich kontextu. Procenta jsou cenným nástrojem pro srovnání, ale je třeba je umět správně interpretovat v závislosti na struktuře dat. Pro správné pochopení datových sad je nutné vzít v úvahu nejen procenta, ale i to, jak jsou data rozdělena mezi jednotlivé kategorie, skupiny nebo úrovně agregace.
Také při analýze kvantitativních dat, kde se používají průměry a standardní odchylky, je kladeno důraz na rozpoznání tří hlavních vlastností distribuce dat – umístění, variabilita a šikmost. Průměr slouží k označení středu distribuce a standardní odchylka k označení její variability. Při použití těchto ukazatelů je však nezbytné mít na paměti, že v reálných datech může být rozdělení velmi asymetrické, což může znamenat, že průměr nemusí nutně odrážet skutečné střední hodnoty, pokud je distribuce šikmá.
V konečném důsledku je klíčové nejen správně chápat statistické ukazatele jako procenta, průměry a standardní odchylky, ale i vědět, jak je správně aplikovat v kontextu konkrétní datové sady. Tento přístup umožňuje získat hlubší porozumění nejen tomu, jak data vypadají, ale i tomu, co skutečně vyjadřují o populaci nebo fenoménu, který je předmětem analýzy.
Jak rozlišit související a nesouvisející kvantitativní datové soubory
V biomedicínských studiích je často nutné analyzovat data z různých skupin subjektů, přičemž je důležité rozlišit mezi datovými soubory, které jsou propojené (spárované), a těmi, které jsou nepropojené (nespárované). Tento rozdíl může významně ovlivnit způsob interpretace výsledků a závěrů, které lze na základě těchto dat vyvodit. Nepropojené datové soubory představují situace, kdy každé měření nebo pozorování v jedné skupině nemá odpovídající měření v druhé skupině. Tento princip se vztahuje na řadu vědeckých experimentů, například ve studiích, které porovnávají různé genotypy, lékové dávky nebo zdravotní stavy.
Příklad z oblasti výzkumu genetiky, konkrétně výzkum u mužů z Indie, ukazuje, jak se data rozdělí podle genotypu (variantní alela APOC3 versus homozygotní typ). Měření triglyceridů v játrech ukazuje, že skupina s variantní alelou má výrazně širší rozptyl hodnot (od 0 % do téměř 50 %) než skupina s divokým typem, u níž hodnoty triglyceridů zůstávají v užším rozmezí a mají tendenci být nižší. Je zde také důležitý nález, že pouze muži s variantní alelou trpěli nealkoholickou steatózou jater, což není pozorováno u homozygotních mužů divokého typu. Tento rozdíl v triglyceridových hodnotách mezi oběma skupinami ukazuje na zřetelnou vzorcovitost, která je pro výzkum zásadní pro pochopení genetických faktorů spojených s metabolickými onemocněními.
V dalších příkladech, například v případě heterozygotních kontrol v měření hladiny proteázy MASP-2, je opět patrné, že variabilita v měřeních je mnohem menší u heterozygotních jedinců ve srovnání s homozygotními. Takové rozdíly mohou být příznakem základních genetických rozdílů mezi skupinami a mají důsledky pro výběr léčby nebo predikci rizik.
Důležité je si uvědomit, že data z nespárovaných souborů ukazují na širokou variabilitu v rámci každé skupiny, což může ovlivnit interpretaci průměrných hodnot nebo jiných statistických ukazatelů. Například, i když může být průměrná hodnota triglyceridů v játrech v jedné skupině vyšší než v jiné, široký rozptyl hodnot může znamenat, že některé jednotlivé hodnoty jsou v obou skupinách velmi podobné, což by mohlo naznačovat, že příčina rozmanitosti není vždy jednoznačná.
V rámci těchto studií jsou důležitá také další zjištění, která mohou zůstat bez povšimnutí, pokud bychom se soustředili pouze na průměrné hodnoty. Například, když je rozdíl mezi dvěma skupinami na základě jakéhokoliv měření, ale rozptyl v hodnotách je natolik široký, že se části hodnot dvou skupin překrývají, neměli bychom tento rozdíl přeceňovat. Interpretace výsledků vyžaduje, aby se statistická data nehodnotila pouze na základě centrální tendence, ale také na základě rozptylu, což může poskytnout jasnější obrázek o rozsahu rozdílů mezi skupinami.
Když se tedy podíváme na výsledky studií, jako je ta s genotypy APOC3 nebo s hladinami MASP-2, musíme vzít v úvahu nejen přítomnost nebo absenci určitých fenotypových charakteristik (např. přítomnost nealkoholické steatózy jater), ale také fakt, že i v rámci těchto skupin existuje široká variabilita. To nás vede k závěru, že v některých případech je větší důraz kladen na analýzu vzorců distribuce než na jednotlivé hodnoty nebo průměry.
Stejně tak analýzy v oblasti fyzické zdatnosti ukazují, že rozdíly mezi skupinami, jako jsou asymptomatičtí alkoholici a muži bez alkoholismu, jsou často významné, ale distribuce silných a slabých hodnot se mohou překrývat, což činí analýzu výsledků složitější. I když průměrné hodnoty ukazují určité tendence, pro skutečné pochopení vztahů mezi proměnnými je nezbytné podívat se na celkový rozsah dat.
Tato skutečnost má klíčový význam pro design studií, které se zaměřují na hodnocení léčby nebo jiných intervencí, protože umožňuje vědcům lépe pochopit, jaký vliv má genetika, životní styl nebo léčebné postupy na různé podskupiny lidí. Možnosti přizpůsobení léčby jednotlivým potřebám pacientů se tak mohou odvíjet nejen od průměrných hodnot, ale i od detailnější analýzy variabilit v rámci těchto skupin.
Jak správně interpretovat změny v titerech protilátek a hormonálních stavech v medicínských studiích?
V medicínských studiích zaměřených na účinnost vakcín a vliv různých faktorů na zdraví jedinců je často nutné analyzovat, jak se mění různé biochemické parametry, jako jsou titery protilátek nebo hormonální stavy. Při tomto typu analýzy se nejedná pouze o hodnocení procentuálních změn v určitém bodě času, ale také o sledování evoluce těchto parametrů u jednotlivých subjektů. Tento přístup, známý jako analýza spárovaných kvalitativních dat, má své specifické výhody a nevýhody, které je nutné správně pochopit.
Změny v titeru protilátek u účastníků očkování jsou obvykle prezentovány jako spárovaná pozorování. Každý účastník je hodnocen před a po vakcinaci, přičemž se sleduje, zda jeho titer dosáhl hodnoty ≥1:40, což označuje ochrannou úroveň protilátek. Pokud se titer zhorší, může to indikovat ztrátu ochrany. Významné je, že procenta účastníků, jejichž titer se před a po vakcinaci změnil, nemusí nutně odrážet individuální změny protilátek u každého účastníka. To je častá chyba při interpretaci účinnosti vakcíny, když se pouze hodnotí změna v procentech ochranných titerů.
Tato situace je dobře ukázána na příkladu dvou scénářů, které analyzují 142 účastníků očkování vakcínou proti kmeni A/H3N2. V obou scénářích se ukazuje stejný celkový výsledek, že procenta účastníků s ochrannými titry před a po vakcinaci jsou shodná. Nicméně, detaily o tom, jak se titery jednotlivých účastníků změnily, se liší. V jednom scénáři, více než 20 % účastníků vykazuje zhoršení, zatímco ve druhém scénáři je zhoršení titru jen u malého procenta účastníků. To ukazuje, že účinnost vakcíny může být hodnocena různými způsoby, a že samotné procentuální změny v titerech nemusí být vždy dostatečně informativní pro hodnocení účinnosti.
Podobné problémy se vyskytují při analýze hormonálních změn u subjektů, například při studiu vlivu intenzivního cvičení na menstruační cykly. Zde je třeba rozlišovat mezi kategoriemi hormonálních stavů jako „normální luteální funkce“, „abnormální luteální funkce“ a „ztráta luteinizujícího hormonálního vrcholu“ a analyzovat, jak se tyto stavy vyvíjely během několika cyklů. I když lze zjistit procento subjektů v každé z těchto kategorií, tento údaj neposkytuje detailní přehled o změnách individuálních hormonálních podmínek během dvou cyklů. Pro správnou interpretaci je důležité zaměřit se na analýzu spárovaných pozorování, která poskytují detailnější obrázek o tom, jak se hormonální stav každé jednotlivé účastnice vyvíjel.
Příklad studie Bullen et al. (1985), která se zaměřila na změny hormonálních stavů u 16 subjektů v průběhu dvou menstruačních cyklů, ukazuje, jak jsou jednotlivé změny analyzovány prostřednictvím různých vzorců změn v těchto spárovaných pozorováních. Ve studii bylo zjištěno, že 44 % účastnic vykázalo zhoršení hormonálního stavu mezi cykly, přičemž jen malé procento žen zažilo zlepšení. Procento účastnic s „abnormální luteální funkcí“ se v průběhu cyklů snížilo, ale bylo to důsledkem zhoršení stavu mnoha žen, nikoliv zlepšení.
Abychom správně interpretovali účinky, které se vyskytují v takovýchto studiích, je důležité vzít v úvahu několik faktorů. Prvním je, že procenta účastníků v různých kategoriích (např. s ochrannými titry nebo s abnormálními hormonálními stavy) mohou maskovat skutečný vývoj u jednotlivců. Druhým faktorem je, že stejný výsledek na úrovni procent může být dosažen různými způsoby, což znamená, že různé scénáře změn mohou vést ke stejným celkovým procentům, ale s různými vzorci změn.
Pro hlubší pochopení je třeba si uvědomit, že pro získání správného obrazu o účincích vakcín nebo jiných faktorů na zdraví jedinců je nezbytné analyzovat změny nejen na úrovni celkových procent, ale i na úrovni individuálních změn. To vyžaduje detailní analýzu spárovaných kvalitativních dat, která odhalí skutečnou dynamiku změn a umožní správné hodnocení účinků.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский