I statistisk analyse er det viktig å forstå hvordan data behandles, spesielt når man sammenligner grupper eller vurderer effektene av ulike behandlinger. En grunnleggende teknikk for sammenligning av to grupper er å bruke forskjellene mellom de to gruppene, og når utvalgsstørrelsen er stor nok, kan man anta at disse forskjellene følger en normalfordeling, selv om de enkelte dataene ikke nødvendigvis er normalfordelte. Når utvalgsstørrelsen er større enn 25, vil fordelingen av gjennomsnittlige forskjeller mellom prøver, til tross for at de enkelte forskjellene ikke er normalfordelte, nærme seg en normalfordeling. Dette er en viktig egenskap ved statistisk testing som ofte forenkler analyser i tilfeller hvor dataene ikke nødvendigvis følger en normalfordeling.

Statistisk validitet er essensiell for å trekke korrekte konklusjoner fra en studie. For eksempel, når man benytter seg av data fra parrede prøver, som i tilfelle av en studie som undersøker effekten av invasiv plantearter på pollinering, kan man bruke t-tester for å vurdere om forskjellen i gjennomsnittlige verdier er signifikant. Når utvalgsstørrelsen er tilstrekkelig, og under forutsetning av at de nødvendige betingelsene for statistisk testing er oppfylt, kan vi beregne konfidensintervallene (CI) for gjennomsnitts forskjellen mellom gruppene. Et 95 % konfidensintervall gir oss et estimat for forskjellen mellom de to gruppene, og vi kan tolke dette intervallet for å vurdere om en signifikant forskjell eksisterer. Et konfidensintervall som inneholder null, antyder at det er liten eller ingen forskjell mellom gruppene, mens et intervall som ikke inkluderer null, indikerer at det er en statistisk signifikant forskjell.

La oss vurdere et konkret eksempel: I en studie av blomstringstidene for to arter i Colorado Rocky Mountains, undersøkte forskerne om den invasiv planten, willow, hadde en påvirkning på blomstringstidene for den lokale arten skypilot. I dette tilfellet ble det brukt et parret design, og forskjellen mellom blomstringsdagene ble beregnet for hvert område. Her fant man en gjennomsnittlig forskjell på 1.36 dager, hvor willow blomstrer før skypilot. Imidlertid, ved å bruke t-test og beregne et 95 % konfidensintervall for forskjellen, ble det funnet at intervallet inkluderte null (−0.52 til 3.24 dager). Dette antyder at det ikke er tilstrekkelig bevis for at forskjellen er signifikant, og vi kan ikke konkludere med at willow har en påvist påvirkning på skypilotens blomstringstid.

I slike tilfeller er det viktig å være presis i hvordan man definerer forskjellen, og å bruke riktig statistisk metode for å evaluere dataene. Man må ikke nødvendigvis avvise nullhypotesen, men heller vurdere styrken på bevisene for den alternative hypotesen. Hvis P-verdien er høy (for eksempel over 0.05), tyder det på at forskjellen i dataene kan forklares ved tilfeldighet, og vi kan ikke konkludere med en signifikant effekt.

Et annet viktig eksempel er en klinisk studie på effekten av kamillete på pasienter med type 2-diabetes mellitus (T2DM). Forskerne randomiserte pasientene til to grupper, der én gruppe drakk kamillete og en annen gruppe drakk varmt vann i 8 uker. Etter studien ble det målt en reduksjon i totalt glukosenivå (TG) for begge gruppene. I den te-drikking gruppen ble det funnet en signifikant reduksjon, mens i kontrollgruppen var endringen minimal. Konfidensintervallene for de to gruppene viste at for te-gruppen var det nesten sikkert en reduksjon i TG, mens for kontrollgruppen var reduksjonen så liten at et null-resultat kunne være en realistisk forklaring.

I slike eksperimentelle studier er det viktig å vurdere både de statistiske testene og konfidensintervallene for å trekke pålitelige konklusjoner. Når man tolker resultatene, bør man være forsiktig med å konkludere med at en behandling har en effekt bare på grunnlag av statistisk signifikans. Det er nødvendig å vurdere den praktiske betydningen av funnene, og hvorvidt de er klinisk relevante.

Det er også viktig å huske på at statistiske tester ikke nødvendigvis bekrefter en hypotese, men snarere gir en indikasjon på hvorvidt dataene kan forklares med en tilfeldighet eller ikke. Et resultat som viser liten statistisk signifikans betyr ikke at det ikke er en faktisk forskjell i populasjonen; det kan bare indikere at dataene ikke gir nok bevis for å avvise nullhypotesen. Statistiske metoder som ikke-parametriske tester og resampling-metoder kan brukes i tilfeller der betingelsene for vanlige t-tester ikke er oppfylt, og kan tilby alternative tilnærminger til dataanalyse.

Når man arbeider med statistiske metoder, er det alltid viktig å forstå hvilken type data man har, hvilke forutsetninger som ligger til grunn for analysene, og hvordan resultatene skal tolkes i lys av disse forutsetningene. Dette bidrar til å gjøre resultatene mer pålitelige og gir en bedre forståelse av de underliggende mekanismene som kan påvirke resultatene.

Hva er sammenhengen mellom ulike faktorer og hvordan kan regresjon brukes til å analysere disse forholdene?

I flere studier er regresjonsanalyse et viktig verktøy for å forstå forholdet mellom variabler, hvor den ene variabelen påvirker den andre. Dette gjelder for både biologiske, fysiske og samfunnsrelaterte fenomener. Her ser vi på forskjellige eksempler og hva vi kan lære av regresjonsligninger, korrelasjoner og hypotesetester.

Heerfordt et al. (2018) undersøkte forholdet mellom tid brukt på å påføre solkrem (x, i minutter) og mengden solkrem som faktisk påføres (y, i gram). Regresjonsligningen som ble funnet var y^=0.27+2.21x\hat{y} = 0.27 + 2.21x, der 0.27 er konstanten b0b_0, og 2.21 er stigningstallet b1b_1. Dette innebærer at selv uten tid brukt på å påføre solkrem, vil det fortsatt påføres en liten mengde solkrem (0.27 gram). For hvert minutt som brukes på påføring, øker mengden solkrem påført med 2.21 gram. Dette virker fornuftig, ettersom det er rimelig å anta at jo mer tid som brukes, jo mer solkrem vil bli påført.

I tillegg til regresjonsligningen, ble det også utført en hypotesetest for å undersøke om det er en signifikant sammenheng mellom b0b_0 og 0. En P-verdi langt større enn 0.05 indikerer at vi ikke kan avvise hypotesen om at konstanten er lik 0, noe som kan tyde på at konstanten ikke er en signifikant faktor i denne modellen. En R2R^2-verdi på 0.64 viser at 64 % av variasjonen i mengden solkrem som påføres, kan forklares av tiden brukt på å påføre solkremen.

I et annet eksempel, Bhargava et al. (1985) undersøkte forholdet mellom brystomkrets hos nyfødte (x, i cm) og fødselsvekt (y, i gram). Regresjonsligningen ble uttrykt som y^=3440.2403+199.2987x\hat{y} = -3440.2403 + 199.2987x, og korrelasjonskoeffisienten var 0.8696, som er en sterk positiv sammenheng. Denne regresjonsligningen antyder at for hver ekstra cm i brystomkrets, øker fødselsvekten med omtrent 199 gram. Interceptet på -3440.2403 kan tolkes som den estimerte vekten for en nyfødt med en brystomkrets på 0 cm, selv om dette ikke er realistisk i praksis.

Er brystomkrets et nyttig mål for å forutsi fødselsvekt? Svaret er ja, fordi den høye korrelasjonen (0.8696) indikerer en sterk sammenheng mellom de to variablene, noe som gjør brystomkrets til en god prediktor for fødselsvekt. En annen viktig observasjon er at P-verdien er mye lavere enn 0.001, noe som bekrefter at forholdet mellom brystomkrets og fødselsvekt er statistisk signifikant.

I eksempelet med Phu Quoc Ridgeback-hunder (Quan et al., 2017), ble kroppshøyde og kroppslengde målt, og et scatterplot ble laget for å vurdere forholdet. Det ble antatt at høyere hunder også ville være lengre. Hypotesen ble testet ved hjelp av korrelasjon, og resultatet bekreftet en signifikant positiv sammenheng. Dette viser hvordan regresjon og korrelasjon kan brukes til å forstå forholdet mellom to fysiske egenskaper, selv i dyrestudier.

Et annet interessant eksempel er tallet på pasienter i en akuttmottak i forhold til dager etter at welfare-midler ble utdelt, som ble undersøkt av Brunette et al. (1991). Her er regresjonsligningen viktig for å forutsi hvor mange pasienter som kan komme til akuttmottaket etter distribusjon av velferdspenger. Stigningen i regresjonsligningen kan tolkes som en indikator på hvordan antallet pasienter endrer seg i løpet av dagen etter pengeutdelingen.

Et ytterligere eksempel på praktisk bruk av regresjon er Panda et al. (2018), som undersøkte forholdet mellom bitumeninnhold i asfalt og luftlommer i bitumenblandingen. Her ble det funnet at R2=99.29%R^2 = 99.29\%, noe som viser at det er en svært sterk sammenheng mellom de to variablene. Dette er et godt eksempel på hvordan regresjon kan brukes til å forutsi tekniske egenskaper i in

Hvordan bruke intervaller for prøvetaking og konfidensintervall for p̂

Når vi tar prøver fra en populasjon for å estimere en ukjent parameter, som en populasjonsproposjon pp, benytter vi oss ofte av et konfidensintervall (KI). Dette intervallet gir oss en idé om hvilke verdier av pp som kan ha generert den observerte prøvetakingsproposisjonen p^\hat{p}. I denne sammenhengen er det viktig å forstå hvordan prøvetakingsintervallene fungerer, hvordan vi beregner dem, og hva de egentlig representerer.

I eksempelet med terningkast (som er beskrevet i teksten), kan vi anta at populasjonsproposisjonen pp er ukjent. La oss anta at vi ruller en terning n=25n = 25 ganger og observerer antall jevne tall. Anta at vi får 11 jevne tall, så vår estimerte prøvetakingsproposisjon blir p^=1125=0.44\hat{p} = \frac{11}{25} = 0.44. Her er p^\hat{p} et mål for pp, men det er bare en estimering. Den faktiske verdien av pp kan være litt høyere eller litt lavere.

Når vi bruker p^\hat{p} til å lage et intervall for å estimere den ukjente populasjonsproposisjonen pp, er det viktig å merke seg at prøvetakingsproposisjonene følger en tilnærmet normalfordeling, med et gjennomsnitt som er lik pp, og en standardavvik som kalles standardfeilen til p^\hat{p}. Standardfeilen for p^\hat{p} beregnes som

s.e.(p^)=p^(1p^)n.s.e.(\hat{p}) = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}.

I vårt eksempel vil standardfeilen være

s.e.(p^)=0.44×(10.44)25=0.099.s.e.(\hat{p}) = \sqrt{\frac{0.44 \times (1 - 0.44)}{25}} = 0.099.

Med denne standardfeilen kan vi nå lage et konfidensintervall for pp. Vanligvis bruker vi en multiplikator (z-verdi) for å bestemme hvor mye vi skal "tilføye" eller "trekke fra" p^\hat{p} for å lage intervallet. For et 95% konfidensintervall benytter vi en multiplikator på 2, ifølge 68-95-99.7-regelen, som sier at omtrent 95% av verdiene vil ligge innenfor to standardavvik fra gjennomsnittet. Dermed blir det 95% konfidensintervallet for pp:

p^±(2×s.e.(p^)),\hat{p} \pm (2 \times s.e.(\hat{p})),

eller mer spesifikt:

0.44±(2×0.099)=0.44±0.198.0.44 \pm (2 \times 0.099) = 0.44 \pm 0.198.

Dette gir oss intervallet fra 0.241 til 0.639. Vi kan si at vi er 95% sikre på at den ukjente populasjonsproposisjonen pp ligger et sted mellom 0.241 og 0.639.

Men det er viktig å forstå at konfidensintervallet ikke gir oss et eksakt svar på hva pp er. I praksis har vi vanligvis bare én prøve, og vi kan aldri være 100% sikre på om vårt konfidensintervall faktisk inneholder den sanne verdien av pp, fordi vi ikke kjenner den sanne verdien. Likevel, ved å bruke en statistisk tilnærming, har vi en høy grad av tillit til at intervallet inneholder den faktiske verdien av pp.

Ved å analysere flere prøver fra en populasjon, vil vi merke at omtrent 95% av konfidensintervallene fra disse prøvene vil inneholde den sanne verdien av pp, mens de resterende 5% ikke vil gjøre det. Dette er fordi konfidensintervallene er basert på tilfeldige prøver, og vi kan ikke forvente at alle intervallene vil være nøyaktige.

I den praktiske anvendelsen av konfidensintervallene, må vi også være oppmerksomme på at flere faktorer kan påvirke hvor nøyaktige de er. For eksempel vil størrelsen på prøven, nn, ha stor innvirkning på standardfeilen og dermed på bredden av konfidensintervallet. Jo større prøven er, desto smalere vil konfidensintervallet være, og desto mer presis vil estimatet av pp være.

En annen viktig betraktning er at konfidensintervallene ikke gir informasjon om hvordan pp er fordelt i populasjonen. De gir bare en tilnærming til hvilke verdier pp kan ha basert på den observerte prøvetakingsproposisjonen p^\hat{p}. I tilfeller der populasjonen er sterkt skjev eller variert, kan det være nødvendig med andre statistiske metoder for å få en mer nøyaktig vurdering.

Til slutt er det viktig å merke seg at konfidensintervallene kun gir et mål for presisjonen til en estimering basert på en prøve. Dette betyr at selv om vi har et konfidensintervall som straffer den sanne verdien av pp 95% av gangene, kan det fortsatt være tilfeller der vårt intervall ikke inneholder den sanne verdien, og dette er noe vi alltid må være klar over når vi tolker resultatene fra statistiske analyser.