Når man designer et studie, er det avgjørende å minimere eller håndtere forstyrrende faktorer, eller konfunderende variabler, for å sikre at resultatene er så nøyaktige og pålitelige som mulig. En av de viktigste metodene for å oppnå dette er ved å bruke riktig utvalg og randomisering. Randomisert tildeling av deltakerne til forskjellige grupper er en sentral komponent i eksperimentelle studier. Denne metoden kan bidra til å fordele potensielle forstyrrende faktorer jevnt mellom gruppene, noe som gjør det lettere å isolere effekten av den uavhengige variabelen. Imidlertid er randomisering kun mulig i eksperimentelle studier, og det er derfor viktig å forstå hvilke designstrategier som kan brukes avhengig av typen studie.

En annen viktig designstrategi er blokkering. Dette innebærer at forskere deler deltakerne inn i grupper med lignende egenskaper før de fordeler dem til ulike behandlingsbetingelser. Dette kan bidra til å kontrollere for variabler som kan påvirke resultatene, og sikre at forskjellene mellom gruppene kan tilskrives den uavhengige variabelen og ikke eksterne faktorer. For eksempel kan deltakere som er i samme aldersgruppe eller som har samme helsetilstand, bli blokkert sammen for å hindre at disse faktorene påvirker resultatene.

I tillegg til randomisering og blokkering, finnes det flere andre strategier som kan minimere påvirkningen av forstyrrende faktorer. Blinding er en av de viktigste metodene, og kan implementeres på forskjellige nivåer. I eksperimentelle studier er det viktig at deltakerne er blinde for hvilken behandling de mottar, da dette kan hindre at deres forventninger påvirker resultatene. Forskere kan også blindes for behandlingen, slik at de ikke blir påvirket av forventningene sine når de samler inn eller analyserer data. Blinding kan bidra til å redusere både Hawthorne-effekten (hvor deltakerne endrer atferd fordi de vet at de er en del av et studie) og observer-effekten (hvor forskerens forventninger påvirker hvordan data blir samlet inn eller tolket).

En annen potensiell feilkilde i studier er placebo-effekten, som kun er relevant for eksperimentelle studier. Ved å bruke et kontrollgruppe-design, hvor en gruppe får placebo-behandling og en annen får den eksperimentelle behandlingen, kan forskere vurdere om endringene i den eksperimentelle gruppen kan tilskrives behandlingen eller om de er et resultat av deltagernes tro på at de mottar behandling. En objektiv vurdering av resultatene er viktig i slike studier for å unngå skjevhet som følge av deltakernes forventninger.

I eksperimentelle studier kan carryover-effekten også være et problem, spesielt når deltakerne får flere behandlinger i løpet av studien. For å håndtere dette kan forskere bruke en "washout"-periode mellom behandlingene eller randomisere rekkefølgen av behandlingene for å minimere effekten av tidligere behandlinger på senere resultater.

En utfordring med mange studier er at forskere ikke alltid kan bruke alle disse metodene. Ofte vet deltakerne at de er en del av et eksperiment, noe som kan føre til at Hawthorne-effekten påvirker deres atferd, og dermed resultatene. I slike tilfeller er det viktig at forskeren prøver å minimere innvirkningen av denne effekten, samtidig som den potensielle påvirkningen diskuteres grundig i analysen. Den samme tilnærmingen gjelder for andre forstyrrelser som observer-effekten, placebo-effekten og carryover-effekten, som kan ha en stor innvirkning på konklusjonene hvis de ikke håndteres på riktig måte.

I tillegg er det viktig å merke seg at objektive målinger vanligvis er mer pålitelige enn subjektive målinger. Selv om det ofte er vanskelig å bruke objektive målinger i alle sammenhenger, bør forskere forsøke å minimere bruken av subjektive vurderinger der det er mulig. For eksempel, i studier som involverer menneskelige deltakere, kan målinger som blodtrykksverdier, hjertefrekvens eller andre fysiologiske data være mer objektive enn selvrapporterte vurderinger av helse eller velvære.

Det er også viktig å forstå hvordan forstyrrende variabler kan bli identifisert og håndtert gjennom riktig analyse. I noen studier kan det være vanskelig å kontrollere alle forstyrrende faktorer, men ved å bruke statistiske metoder kan forskere ofte redusere deres innvirkning. Selv om randomisering og kontrollgrupper er viktige for eksperimentelle studier, er det også mulig å bruke analysemetoder som justerer for konfunderende variabler i observasjonsstudier.

Eksempler på slike metoder kan inkludere regresjonsanalyser som tar hensyn til eksterne faktorer, eller bruk av stratifikasjon der deltakerne deles inn i forskjellige grupper basert på faktorer som kan påvirke resultatene.

Når vi ser på eksempler på studier som involverer forskjellige eksperimentelle design, ser vi at god studiekontroll og metodologisk design er essensielle for å oppnå pålitelige resultater. Eksempler som studien av brystkompresjoner ved hjelp av dominant og ikke-dominant hånd [Cross et al., 2019], viser hvordan randomisering, blindering og grundige designvalg kan styrke gyldigheten av studiens konklusjoner. Selv om det kan være begrensninger, som deltakerne som vet hvilke grupper de tilhører, er det viktig å vurdere hvordan disse kan påvirke resultatene og gjøre nødvendige justeringer.

I observasjonsstudier er det andre utfordringer, da det ofte ikke er mulig å bruke randomisering eller kontrollerte eksperimentelle betingelser. Men ved å bruke tilfeldige utvalg og strenge analysestrategier kan forskere fortsatt redusere effekten av konfunderende variabler. I slike studier blir det viktig å forstå hvordan andre faktorer som kjønn, alder eller helsetilstand kan spille en rolle i resultatene og hvordan disse kan justeres for i analysen.

Hvordan finne medianen og bruke gjennomsnittet riktig

Medianen deler de større observasjonene fra de mindre. For et datasett med n = 14 observerte verdier, finner vi medianen på posisjonen (14 + 1) / 2 = 7,5. Dette betyr at medianen ligger mellom den syvende og åttende observasjonen når dataene er sortert. I dette tilfellet er den syvende og åttende verdien begge 1,7 (beats per 10 timer). Dermed blir utvalgets median 1,7.

For et datasett med et oddetall av observasjoner er medianen enkelt den midterste verdien når dataene er ordnet. Men for et jevnt antall observasjoner, som i dette eksempelet, er medianen midt mellom de to sentrale verdiene. I programmering og statistikk kan det være små forskjeller i hvordan medianen beregnes, spesielt når n er jevnt, men i dette tilfellet vil medianen være 1,7.

Medianen er et estimat for befolkningens median, og hvert utvalg vil ha sin egen verdi for medianen. Dette betyr at man ofte bare har ett utvalg, og derfor er det viktig å forstå hvordan medianen er beregnet, og hvordan dette kan variere fra utvalg til utvalg.

Eksempel: Når vi ser på eksemplet med flaggermusene (Tabell 11.5), kan medianen for den avstanden som flaggermusene oppdager fluer ved, beregnes som den sjette verdien i det ordnede datasettet, som er 45 cm.

Når man velger hvilken gjennomsnittlig verdi man skal bruke, er det viktig å vurdere datasettets fordeling. For eksempel, når man ser på daglig vannføringsdata fra Mary River (Eksempel 11.12), kan både gjennomsnitt og median brukes. Her er det en betydelig forskjell mellom gjennomsnittet og medianen: gjennomsnittet er 1 123 ML, mens medianen er 146,1 ML. Dette skyldes at de fleste observasjonene er mye mindre enn gjennomsnittet, men det er ikke nødvendigvis en god representasjon av "typisk" strømning. De store verdiene, som kan være et resultat av oversvømmelser, trekker gjennomsnittet opp, mens medianen er mye mindre påvirket av ekstreme verdier.

Når dataene er skjevt fordelt eller inneholder uteliggere, vil medianen vanligvis gi en bedre representasjon av den sentrale tendensen. Det er viktig å forstå at gjennomsnittet kan bli forvrengt av ekstreme verdier (outliers), mens medianen derimot ikke påvirkes på samme måte. I tilfeller der dataene har alvorlige skjevheter, vil medianen være det beste mål for gjennomsnitt.

I de fleste tilfeller er gjennomsnittet det mest brukte målet for sentral tendens, da det er praktisk og lettere å bruke i matematiske beregninger. Men i tilfeller med betydelige skjevheter eller uteliggere, kan det være mer hensiktsmessig å bruke medianen, da denne verdien ikke blir like påvirket av ekstreme observasjoner. Gjennomsnitt og median kan i noen tilfeller brukes sammen for å gi en mer komplett forståelse av dataene.

Selv om begge mål for sentral tendens er nyttige, vil det ofte være mer relevant å fokusere på variasjonene i dataene fremfor bare den gjennomsnittlige verdien. Variasjon gir en bedre forståelse av hvor mye dataene sprer seg rundt medianen eller gjennomsnittet. Dette kan inkludere å se på spredningen av dataene ved hjelp av begreper som standardavvik, rekkevidde eller kvartilbredde.

Variasjonen i dataene er et annet viktig aspekt å vurdere. Rekkevidden, som er forskjellen mellom den største og minste verdien i et datasett, er et enkelt mål for variasjon. Den brukes sjelden alene, da den kun tar hensyn til de ekstreme verdiene i datasettet og kan være sterkt påvirket av uteliggere. Standardavviket derimot, er et mer pålitelig mål for variasjon, og gir et mål på den gjennomsnittlige avstanden mellom observasjonene og gjennomsnittet.

Standardavviket er den mest brukte målingen for variasjon, da det gir et mer helhetlig bilde av hvordan dataene er spredt. For eksempel kan et datasett med små variasjoner ha et lavt standardavvik, mens et datasett med store forskjeller mellom observasjonene vil ha et høyere standardavvik. Standardavviket brukes vanligvis til symmetriske data, der variasjonen er mer jevn, mens medianen ofte er bedre egnet til datasett med stor skjevhet.

Et eksempel på hvordan man kan beregne standardavviket er å ta avstanden mellom hver verdi i datasettet og gjennomsnittet, kvadrere disse forskjellene, deretter finne gjennomsnittet av disse kvadrerte avstandene, og til slutt ta kvadratroten av dette tallet. På denne måten får vi en mer nøyaktig forståelse av hvor mye dataene varierer rundt gjennomsnittet.

Når du bruker statistikk for å oppsummere kvantitative data, er det derfor viktig å være bevisst på både gjennomsnittet og medianen, samt hvordan variasjonen i dataene kan påvirke tolkningen av disse målene. Både gjennomsnitt og median er nyttige verktøy, men de bør brukes i kontekst med hvordan dataene fordeler seg og hva de representerer.