Når vi bruker den statistiske metoden for å analysere parrede data, som i tilfellene nevnt i oppgavene, er det viktig å forstå hva forskjellene i målingene representerer. For eksempel, i studiene som sammenligner helseparametere før og etter behandling, blir forskjellen i målinger mellom tidspunktene brukt som en indikator på effekt. Denne metoden er særlig nyttig når vi har data som involverer de samme deltakerne ved forskjellige tidspunkter, som i tilfelle der vi sammenligner helseindikatorer før og etter en intervensjon. En positiv forskjell indikerer en økning i den målte verdien etter intervensjonen, mens en negativ forskjell indikerer en reduksjon.

Det er avgjørende å bruke de samme deltakerne for både før- og ettermålinger, da dette reduserer effekten av individuelle variasjoner mellom forskjellige grupper. Når vi bruker forskjellige grupper for før- og ettermålingene, introduserer vi ekstra usikkerhet i analysen, ettersom individuelle forskjeller mellom gruppene kan påvirke resultatene. Dette er grunnen til at parrede data gir mer presise resultater når vi prøver å vurdere effekten av en behandling eller intervensjon på en gruppe individer.

I eksemplene som involverer rå brokkoli med og uten dip, kan forskjellen i smaksvurderingene fortelle oss hvordan en enkel endring – som å servere brokkolien med dip – kan påvirke ungdommers oppfatning av smaken. Den gjennomsnittlige forskjellen på 5,2 poeng kan derfor sees som en praktisk effekt som kan være nok til å endre atferd, for eksempel ved å øke grønnsakskonsumet blant ungdom. Når vi gjennomfører slike analyser, er det viktig å ta hensyn til både den statistiske og praktiske betydningen av forskjellene. I dette tilfellet, selv om den statistiske forskjellen kan være signifikant, kan den faktiske effekten av dippen være liten nok til at det ikke får en stor praktisk påvirkning.

I de fleste tilfeller vil det være nødvendig å bruke en t-test for å vurdere om den observerte forskjellen er statistisk signifikant. En t-test for parrede data tester hypotesen om at det ikke er noen forskjell mellom de to tidspunktene. Hvis t-verdien er stor nok til å avvise nullhypotesen, kan vi konkludere med at intervensjonen (enten det er dip eller trening) har hatt en effekt. Etter at t-testen er utført, kan vi også beregne et konfidensintervall (CI) for å få et bedre inntrykk av usikkerheten i resultatene.

For eksempel i studien om intensjon til å røyke før og etter trening, kan et slikt konfidensintervall gi oss informasjon om det potensielle intervallet for reduksjon i intensjonen å røyke i den generelle befolkningen, basert på våre utvalg. Ved å bruke softwareutdata kan vi beregne både det eksakte 95% CI og det omtrentlige CI, som gir en indikasjon på hvor presise resultatene er.

Når vi ser på resultatene fra studien med betendorkiner før og etter kirurgi, ser vi at resultatene gir en dypere innsikt i hvordan kroppens respons på stress kan måles på individnivå. Her er forskjellene i verdiene før og etter kirurgi viktige for å forstå hvordan kirurgi påvirker kroppen, og om stressnivået øker i denne perioden.

Det er viktig å merke seg at det kan være forskjeller i konfidensintervallene avhengig av hvilken beregningsmetode som benyttes, som ved sammenligningen mellom de eksakte og omtrentlige CIene. Dette kan skape forvirring om hvorvidt resultatene er "statistisk gyldige", men det viktigste er alltid å vurdere både det statistiske resultatet og det praktiske utfallet i konteksten av studien.

Et annet eksempel på dette er studien om endringer i fysisk aktivitet under COVID-19 lockdown i Spania, der vi ser hvordan den gjennomsnittlige forskjellen i fysisk aktivitet før og under lockdown kan brukes til å vurdere den praktiske betydningen av restriksjonene på helsevaner. Forskjellene her gir oss innsikt i hvordan pandemien har påvirket fysisk aktivitet på individnivå og kan være et viktig punkt i å vurdere hvilke tiltak som bør tas for å fremme helse og velvære i lignende kriser.

Når vi arbeider med slike data, er det essensielt å forstå at statistiske tester som t-testen og beregningene av konfidensintervallene ikke bare handler om å oppnå en "signifikant" p-verdi. Den praktiske betydningen av forskjellene mellom målingene er like viktig for å trekke meningsfulle konklusjoner, som for eksempel om en intervensjon er verdt å implementere på bredere basis, eller om det er behov for ytterligere forskning for å bekrefte resultatene.

Hvordan velge en representativ prøve: tilfeldig vs. ikke-tilfeldig sampling

For å få pålitelige estimater om en populasjon fra en prøve, er det avgjørende at prøven er et godt representativt utvalg av populasjonen. Dette innebærer at man må forstå de ulike metodene for hvordan prøver kan velges, samt konsekvensene av å bruke feil metode. En av de mest grunnleggende måtene å tenke på dette på er ved hjelp av begrepene nøyaktighet og presisjon, som ofte blir diskutert i statistiske sammenhenger.

For å forklare disse begrepene, kan man bruke en analogi med en bueskytt. Tenk deg at en bueskytter prøver å treffe et mål. Skuddene som skytes kan enten være nøyaktige (dvs. treffe målet), presise (dvs. treffe et bestemt punkt på målet gjentatte ganger), eller ideelt sett både nøyaktige og presise. Når vi snakker om prøvetaking, kan skuddene på målet representere forskjellige prøver av en populasjon. En nøyaktig prøve gir et estimat som er nært det sanne verdien for populasjonen, mens en presis prøve gir et estimat som er stabilt, men ikke nødvendigvis nært den sanne verdien.

En stor prøve kan gi et presist estimat, men hvis prøven ikke er representativ for hele populasjonen, kan resultatene være misvisende. For eksempel, om vi ønsker å estimere gjennomsnittsalderen for alle kanadiere, og vi kun tar en prøve på 9 000 kanadiske skolebarn, vil vi få et presist estimat, men det vil være feil fordi barn ikke representerer hele befolkningen i Kanada.

Når vi ser på hvordan prøver kan velges, skiller vi mellom to hovedmetoder: tilfeldig sampling og ikke-tilfeldig sampling. I tilfelle tilfeldig sampling, velges individer fra populasjonen på en måte som er helt tilfeldig og basert på sjanse. Denne metoden er den beste for å oppnå et representativt utvalg som sannsynligvis vil gi nøyaktige og pålitelige estimater. For å forklare mer konkret, er en tilfeldig prøve en der hvert individ i populasjonen har en like stor sjanse for å bli valgt. Dette kan oppnås ved å bruke tilfeldige tall, en generator eller en tabell med tilfeldige tall.

Eksempler på tilfeldig sampling er flere typer metoder som kan velges avhengig av situasjonen. For eksempel kan en enkel tilfeldig prøve velges ved å trekke tilfeldig fra en liste over alle individer i populasjonen. Dette kan være utfordrende når det ikke er en enkel liste å forholde seg til, som for eksempel når man prøver å samle data fra en økologisk populasjon som ikke lett kan listes opp.

I tillegg til enkel tilfeldig sampling finnes det andre former for tilfeldig sampling, som systematisk sampling og stratifisert sampling. I systematisk sampling velges det første elementet tilfeldig, og deretter velges hvert n-te element deretter. Dette kan være nyttig når man har en stor populasjon og ønsker å trekke et representativt utvalg uten å måtte trekke hver enkelt individuelt. Stratifisert sampling innebærer å dele populasjonen inn i grupper (strata) og deretter trekke tilfeldige prøver fra hver gruppe, noe som er nyttig når populasjonen består av ulike undergrupper som bør representeres.

På den andre siden finnes det ikke-tilfeldige prøvemetoder, som ikke er basert på tilfeldig utvalg, men heller på forskerens personlige valg. Eksempler på ikke-tilfeldig sampling inkluderer dømmesampling, der forskeren velger individer basert på subjektiv vurdering, for eksempel personer som virker hjelpsomme eller enkle å få tak i, eller bekvemmelighetsprøver, hvor prøven tas fra de som er lettest tilgjengelig. Slike metoder kan føre til skjevheter, ettersom de ikke nødvendigvis gir et representativt utvalg av populasjonen.

Bruken av ikke-tilfeldig sampling kan føre til unøyaktige resultater som ikke kan generaliseres til hele populasjonen. For eksempel, om forskeren velger å studere bare de som er villige til å delta i en undersøkelse (selvvalgte prøver), kan det føre til skjevhet, da de som melder seg på kanskje ikke representerer hele populasjonen. Videre kan selektiv prøvetaking (for eksempel å velge individer som støtter en bestemt hypotese) føre til et svært skjevt bilde av virkeligheten. Bruken av ikke-tilfeldig sampling kan noen ganger være et bevisst forsøk på å manipulere resultatene, noe som er etisk problematisk.

Det er viktig for forskere å være klar over konsekvensene av å bruke ikke-tilfeldige prøver. Selv om praktiske eller økonomiske hensyn kan føre til at ikke-tilfeldige metoder benyttes, bør slike valg gjøres med stor forsiktighet. Hvis en studie baserer seg på en ikke-tilfeldig prøve, kan resultatene være svært begrenset i sin anvendelse på den bredere populasjonen.

I tillegg til forståelsen av de ulike metoder for prøvetaking, er det også viktig å merke seg at størrelse på prøven spiller en betydelig rolle i kvaliteten på estimatene. Større prøver gir generelt mer presise estimater, men størrelsen alene er ikke nok; prøven må fortsatt være representativ for hele populasjonen for at resultatene skal være gyldige og pålitelige.

Hvordan vurdere gyldigheten av forskningsresultater: Ekstern, intern og økologisk validitet

Gyldigheten av et forskningsresultat avhenger av flere faktorer som kan påvirke hvordan resultatene kan anvendes på en større befolkning, i virkelige situasjoner, eller innenfor de spesifikke forholdene studien ble utført. Tre viktige begreper for å vurdere gyldigheten er intern validitet, ekstern validitet og økologisk validitet. Hver av disse spiller en kritisk rolle i hvordan resultatene fra studier kan tolkes og brukes i forskjellige sammenhenger.

Intern validitet refererer til hvordan effektivt en studie har isolert den ønskede relasjonen mellom variabler innenfor prøven som er undersøkt. Jo bedre forskningen kontrollerer for eksterne faktorer og variabler, desto mer pålitelig er konklusjonene innenfor det spesifikke datasettet. Det betyr at vi kan være trygge på at endringer i den avhengige variabelen er forårsaket av den uavhengige variabelen, og ikke av en skjult variabel. For eksempel, hvis en studie prøver å vurdere effekten av et kosthold på vekttap, må forskerne kontrollere for faktorer som fysisk aktivitet, søvnmønster og genetikk for å sikre at resultatene er spesifikke for kostholdet og ikke for andre påvirkninger.

Ekstern validitet handler om hvorvidt resultatene fra en studie kan generaliseres til en bredere befolkning utenfor den spesifikke prøven som ble undersøkt. En viktig faktor for ekstern validitet er hvordan prøven ble valgt. Resultater fra et tilfeldig utvalg, hvor deltakerne er representativt valgt fra målpopulasjonen, er mer sannsynlig å være eksternt valide enn de fra et bekvemmelighetsutvalg. For eksempel, hvis en studie på kvinner av sørasiatisk opprinnelse i Auckland, New Zealand, bruker et bekvemmelighetsutvalg fra denne byen, kan resultatene være relevante for kvinner i Auckland, men de kan ikke uten videre generaliseres til kvinner av sørasiatisk opprinnelse i hele New Zealand, ettersom utvalget ikke er representativt for hele landets befolkning.

En annen viktig komponent i vurderingen av ekstern validitet er inklusjons- og eksklusjonskriteriene som benyttes i studien. Hvis bestemte grupper av mennesker er utelukket fra studien, kan dette begrense muligheten til å generalisere funnene til hele befolkningen. Det er også viktig å merke seg at prøver som ikke er helt representative fortsatt kan gi nyttig informasjon, men resultatene må tolkes med forsiktighet.

Økologisk validitet refererer til hvor godt studieforholdene gjenspeiler virkelige livssituasjoner. Hvis studien er for kontrollert, kan resultatene være vanskeligere å overføre til den virkelige verden. Dette er spesielt relevant i eksperimentelle studier, hvor betingelsene ofte er sterkt regulert for å isolere spesifikke effekter. Et godt eksempel på et studie som mangler økologisk validitet er et spørreskjema som ber folk om deres kaffekjøpsvaner. Det kan hende at hva folk sier de gjør, ikke stemmer overens med hva de faktisk gjør, noe som svekker studiens relevans i virkelige situasjoner. En mer økologisk valid studie ville være å observere folks faktiske handlinger på forskjellige kaffebutikker.

For at et eksperiment skal ha økologisk validitet, er det avgjørende at det fanger de virkelige forholdene deltakerne vil møte i det daglige livet. Dersom en studie bruker kunstige betingelser som ikke er representative for den virkelige verden, kan resultatene ha liten praktisk anvendelse. En studie som for eksempel evaluerer hvordan folk handler i et simulerte butikkinnkjøp uten å måtte betale for varene, kan gi interessante innblikk i beslutningstaking, men de kan være mindre relevante for å forstå virkelige kjøpsbeslutninger.

Det er viktig å forstå at en studie ikke nødvendigvis trenger å være økologisk valid for å være nyttig. Forskning som utføres under kontrollerte forhold kan gi verdifulle innsikter, men når man bruker resultatene i en bredere, virkelighetsbasert kontekst, må man være oppmerksom på eventuelle avvik som kan oppstå.

I tillegg til vurderingene av intern, ekstern og økologisk validitet, er det viktig å merke seg at forskningsresultater ofte er avhengige av hvilke metoder som benyttes. Ulike forskningsdesign kan ha forskjellige grader av gyldighet avhengig av hva som undersøkes. For eksempel kan et eksperiment der deltakerne blir tilfeldig tildelt ulike behandlinger gi mer pålitelige resultater når det gjelder årsak-virkning enn observasjonsstudier, som bare dokumenterer hva som skjer uten å intervenere.

Leserne må også være bevisste på at en studie kan være begrenset i sine funn og ikke nødvendigvis kan generaliseres uten videre. Funnene kan være relevante for bestemte grupper eller i spesifikke situasjoner, men for å trekke universelle konklusjoner er det nødvendig å ha et bredere utvalg eller flere studier som støtter de samme resultatene.

Hvordan ta beslutninger basert på hypoteser og sannsynligheter?

Beslutningstaking er en prosess som involverer å evaluere alternativer og veie risikoen for ulike utfall. I statistikk handler beslutningstaking ofte om å teste hypoteser for å forstå hvordan en bestemt hendelse kan utvikle seg. Dette kan være avgjørende i alt fra vitenskapelig forskning til hverdagslige beslutninger.

Når vi tar en beslutning basert på data, følger vi en strukturert prosess. Først og fremst begynner vi med å formulere hypotesene våre. En hypotese er en påstand eller antagelse som vi ønsker å teste. Dette kan for eksempel være at en ny behandling har en effekt, eller at en gruppe er forskjellig fra en annen på en spesifikk parameter, som en gjennomsnittlig verdi. Hypotesen kan være både en nullhypotese (ingen effekt, ingen forskjell) og en alternativ hypotese (det er en effekt eller forskjell).

Etter at hypotesene er formulert, er neste steg å samle inn data. Dette kan gjøres gjennom eksperimenter, observasjoner eller tilfeldige utvalg. Det viktigste er at dataene er representative for den situasjonen vi ønsker å analysere, og at utvalget er tilstrekkelig stort for å gi pålitelige resultater.

Når dataene er samlet, beregner vi sannsynligheten for at de observerte resultatene ville oppstå, gitt at nullhypotesen er sann. Dette er grunnlaget for p-verdien, som indikerer hvor sannsynlig det er å observere resultatene hvis nullhypotesen faktisk er korrekt. En lav p-verdi (ofte under 0,05) antyder at resultatene er usannsynlige under nullhypotesen, og vi kan derfor avvise denne hypotesen til fordel for den alternative hypotesen.

Beslutningstaking i statistikk involverer derfor både hypotetiske påstander og kvantitative verktøy for å evaluere usikkerhet. Prosessen er ikke alltid enkel, og det er flere faktorer som kan påvirke utfallet. For eksempel må man alltid vurdere betingelsene for statistisk validitet, som kravene til uavhengighet og normalitet i dataene. Hvis disse betingelsene ikke er oppfylt, kan resultatene være misvisende.

En annen viktig faktor er forståelsen av praktisk betydning versus statistisk signifikans. Selv om et resultat er statistisk signifikant, betyr det ikke nødvendigvis at det er av praktisk betydning. For eksempel kan en medisin vise en liten, men statistisk signifikant forbedring, som kanskje ikke er merkbar i virkeligheten.

For å oppsummere er beslutningstaking i statistikk en nøye balansert prosess mellom hypoteser, datainnsamling, beregning av sannsynligheter og vurdering av validitet. Det er essensielt å forstå at statistiske tester gir innsikt i usikkerhet og risiko, men at beslutninger basert på disse testene bør vurderes kritisk, spesielt når man står overfor virkelige problemer som kan ha stor praktisk betydning.

Hvordan sammenligne kvantitative data mellom grupper

Når vi sammenligner kvantitative data på tvers av grupper, er det viktig å bruke riktig grafisk fremstilling for å unngå forvirring og misforståelser. Én vanlig utfordring ved visualisering er overplotting, der dataene blir så tett plottet at poengene overlapper, og viktige detaljer går tapt. I slike tilfeller kan vi bruke teknikker som "stacking" eller "jittering" for å unngå dette, som vist i fig. 14.2.

En 2D-dot-diagram, for eksempel, kan brukes for å vise variasjoner i hjerteslag-frekvensen hos gorillaer, hvor punktene enten stables eller "jitteres" (litt spredt) for å sikre at hvert poeng er synlig. Ved å bruke slike tilnærminger, kan vi få et klart bilde av hvordan dataene er fordelt uten at poengene blir ulestbare.

En annen nyttig grafisk representasjon er boksenplot (boxplot), som gir en effektiv oversikt over kvantileverdiene i en datasett. Et boksenplot for gorillenes hjerteslag kan for eksempel vise en tydelig forskjell mellom yngre og eldre gorillaer, som i fig. 14.3. Denne grafen oppsummerer dataene med bare fem nøkkeltall: minimum, første kvartil (Q1), median, tredje kvartil (Q3) og maksimum. I tillegg identifiseres eventuelle uteliggere, for eksempel ved bruk av IQR-regelen.

Boxplots gjør det enkelt å sammenligne distribusjoner på tvers av grupper, men de gir ikke innsikt i detaljene i distribusjonen. For å få en bedre forståelse av hvordan dataene er fordelt, er histogrammer bedre egnet. Et boksenplot mister detaljene som finnes i det opprinnelige datasettet, men gir en rask visuell sammenligning mellom gruppene.

Et eksempel på en analyse av forskjeller mellom grupper kan være sammenligningen av tre ulike tannkementer i fig. 14.5, der push-out-kraften for hvert kement er sammenlignet. En slik graf kan vise at de tre materialene har forskjellige styrker, som kan være viktig for valg av kemente basert på kliniske behov.

I tillegg til disse grafene, finnes det mer komplekse metoder for å analysere data i ulike kontekster. Et annet interessant eksempel er studien som ble gjennomført av López-Serrano et al. [2022], som undersøkte vannadgang i tre landlige samfunn i Kamerun og dens sammenheng med diaré hos små barn. Grafene og tabellene som ble laget i studien (som vist i fig. 14.6) avslørte at husstander med flere barn under 5 år og eldre kvinnelige husstandsledere hadde høyere risiko for å rapportere diaré, noe som kan indikere en sammenheng mellom disse faktorene.

Det er viktig å merke seg at sammenligninger mellom grupper bør gjøres med forsiktighet, spesielt når det er flere variabler involvert. Statistiske analyser som t-tester eller ANOVA kan være nødvendige for å formelt vurdere om forskjellene mellom grupper er signifikante.

En annen detalj som er viktig å forstå er hvordan man tolker kvantitative data i konteksten av uteliggere og spredning. For eksempel kan en stor uteligger i boksenplottene signalisere et ekstremt tilfelle som kanskje ikke er representativt for gruppen som helhet, og derfor bør analyseres separat. Å ignorere slike avvik kan føre til feilaktige konklusjoner.

Når man bruker grafiske fremstillinger, er det essensielt å være oppmerksom på hvordan dataene presenteres og hvilke antagelser som gjøres. En feilaktig grafisk fremstilling kan lett føre til misforståelser, noe som gjør det avgjørende å velge de riktige metodene for både visualisering og analyse av data.

Det er også viktig å forstå at grafiske metoder ikke er universelle. Hva som fungerer best, avhenger av datatypen og hva man ønsker å fremheve i analysen. For eksempel, når man sammenligner mange grupper, kan vertikale boksenplot være mer lesbare enn horisontale, spesielt når etikettene på x-aksen blir lange. Til slutt er det viktig å vurdere om dataene er representative for det bredere populært, og å bruke passende statistiske tester for å underbygge eventuelle observasjoner gjort gjennom grafene.