Når vi utfører forskning, er en av de mest fundamentale utfordringene å forstå hvordan vi kan trekke pålitelige konklusjoner om en hel befolkning ut fra et utvalg av individer. Dette er spesielt relevant fordi det er umulig å studere alle medlemmene i en befolkning på grunn av kostnader, tid, etikk og praktiske hensyn. I stedet studeres et utvalg, som representerer en del av den aktuelle befolkningen. Men hvordan kan vi være sikre på at vi kan generalisere funnene våre til hele befolkningen basert på et så begrenset utvalg?

Ekstern validitet handler om evnen til å generalisere resultatene fra et utvalg til hele befolkningen. Et studie har høy ekstern validitet hvis resultatene vi får fra vårt utvalg kan overføres til den større befolkningen som vi er interessert i å studere. For eksempel, hvis vi undersøker hvordan amerikanske voksne bruker forskjellige akselerometre for å registrere daglige steg, vil vi gjerne vite om resultatene fra et spesifikt utvalg av voksne kan gjelde for alle voksne i USA. Ekstern validitet er derfor en kritisk komponent i å gjøre forskningen vår relevant og pålitelig på tvers av ulike kontekster og populasjoner.

Intern validitet refererer til i hvilken grad et studie kan etablere et årsaksforhold mellom variablene som studeres, altså om endringer i den uavhengige variabelen kan tilskrives endringer i den avhengige variabelen, uten at andre faktorer påvirker resultatene. Et studie med høy intern validitet har kontroll over mulige forstyrrende faktorer (f.eks. eksterne variabler eller "støy") som kan påvirke den avhengige variabelen. Dette kan være faktorer som vi ikke har kontroll over, men som likevel kan påvirke resultatene. I et eksperiment der vi studerer effekten av et medikament på blodtrykket, vil vi for eksempel måtte kontrollere for pasientenes alder, kjønn, eksisterende helsetilstand og livsstil, da disse faktorene kan påvirke resultatene.

Det finnes også mange utfordringer forbundet med både intern og ekstern validitet. Et vanlig problem er konfunderende variabler, som er faktorer som påvirker både den uavhengige og avhengige variabelen, og dermed kan skape en falsk assosiasjon. For eksempel, hvis vi undersøker effekten av trening på vekttap, må vi sørge for at andre faktorer, som kosthold eller genetiske forskjeller, ikke påvirker resultatene på en uønsket måte.

Videre kan lurkingvariabler (skjulte variabler) være et problem. Disse er faktorer som påvirker både den uavhengige og avhengige variabelen, men som vi kanskje ikke har kontrollert for eller identifisert i forskningsdesignet. En typisk eksempel kan være at folk som er mer fysisk aktive også har et sunnere kosthold, noe som kan påvirke resultatene av studien.

En annen viktig faktor som påvirker forskningen er slumpens rolle. Selv om vi kontrollerer for flere variabler, er det alltid en viss grad av tilfeldighet som påvirker hvordan resultatene våre blir. Derfor er det viktig å bruke statistiske metoder for å vurdere usikkerheten i våre estimater og gjøre klare uttalelser om hvorvidt resultatene våre kan tilskrives en faktisk effekt eller om de kan skyldes tilfeldigheter.

I tillegg til å vurdere intern og ekstern validitet, er det essensielt å reflektere over hvordan vi samler data. I forskning som involverer mennesker, som i studier om helse, må vi vurdere etiske spørsmål. Hvordan påvirker forskningsdesignet etiske dilemmaer, og er vi sikre på at vi beskytter deltakerne? For eksempel, hvis vi undersøker effekten av et legemiddel, må vi sørge for at deltakerne har blitt informert om potensielle risikoer, og at studien ikke skader deltakerne på noen måte.

Når vi skal vurdere forskningsspørsmål, kan det være nyttig å se på om de er deskriptive, relasjonelle, repetitive eller korrelasjonelle. Deskriptive spørsmål handler om å beskrive en situasjon, som for eksempel gjennomsnittlig inntak av et næringsstoff i en populasjon. Relasjonelle spørsmål ser på sammenhenger mellom variabler, som i eksemplet med sammenhengen mellom natriumutskillelse og blodtrykk. Repetitive spørsmål undersøker endringer over tid, som for eksempel hvordan en intervensjon påvirker helse. Korrelasjonelle spørsmål ser på sammenhenger uten nødvendigvis å etablere årsak og virkning.

Spørsmålene bør også kategoriseres etter om de er estimationsspørsmål eller beslutningstaking. Estimationsspørsmål prøver å beregne gjennomsnitt, sammenhenger eller forskjeller, mens beslutningstaking handler om å ta valg basert på resultatene, som i helsepolitikk.

Avslutningsvis, å forstå hvordan forskningsdesign påvirker resultatene våre og hvordan vi kan minimere feil og skjevheter, er helt essensielt. Det hjelper oss ikke bare å få riktige resultater, men også å formidle disse på en måte som er troverdig og pålitelig.

Hva er betydningen av indre og ytre validitet i forskningsstudier?

I forskningsstudier er det viktig å vurdere både indre og ytre validitet for å kunne forstå hva resultatene egentlig forteller oss. Forskningsspørsmål gjelder befolkninger, men i praksis er det ofte prøver, eller utvalg, som studeres. Når et utvalg representerer en befolkning, kalles studien eksternt valid. Ekstern validitet refererer til hvor godt resultatene fra studien kan generaliseres til den bredere befolkningen. Et utvalg som er representativt for den aktuelle populasjonen, gir studien høy ekstern validitet.

Når forskere designer en studie, er hovedinteressen ofte forholdet mellom en responsvariabel og en forklaringsvariabel. For eksempel kan man undersøke hvordan en bestemt faktor (forklaringsvariabelen) påvirker et spesifikt resultat (responsvariabelen). En studie med høy intern validitet vil være en studie der forskeren har klart å isolere forholdet mellom disse to variablene, og samtidig kontrollert eller eliminert andre faktorer som kan påvirke resultatene.

Den interne validiteten er et mål på hvorvidt forskningen faktisk undersøker det den har til hensikt å undersøke, uten at andre faktorer forstyrrer resultatene. Dersom det finnes flere faktorer som påvirker responsvariabelen, i tillegg til forklaringsvariabelen, kan det være nødvendig å vurdere disse faktorenes rolle i studien. Slike faktorer kalles ofte "ekstraneous variabler". Noen av disse ekstraneous variablene kan være relatert til forklaringsvariabelen, og da snakker vi om "konfundering" - for eksempel hvis det er en skjult variabel som påvirker både forklarings- og responsvariabelen samtidig.

Et klassisk eksempel på en konfundert variabel kan være alder i en studie der man undersøker sammenhengen mellom fysisk aktivitet og helse. Dersom eldre personer har en tendens til å være mindre fysisk aktive, kan dette påvirke helseutfallet, selv om det er den fysiske aktiviteten som er hovedfokuset.

Kanskje enda viktigere er å forstå at noen variabler kan være skjulte eller ikke registrerte. Dette kalles "lurking" variabler, og de kan føre til feilaktige konklusjoner hvis de ikke tas med i analysen. Det er for eksempel mulig at et studie som undersøker effekten av en viss behandling på helsen, ikke fanger opp den underliggende effekten av livsstil eller genetiske faktorer, som kan ha en mye sterkere innvirkning på resultatene.

Når vi vurderer intern validitet, må vi også ta hensyn til tilfeldigheter eller usikkerhet. Dette kan være andre ukontrollerte faktorer som kan påvirke resultatene på en uventet måte. Å kunne isolere disse elementene gir forskeren større tillit til at de observasjonene som er gjort, faktisk reflekterer det forholdet de ønsker å studere.

I tillegg til de eksperimentelle designene som tillater forskere å kontrollere for eksterne faktorer, finnes det andre typer forskningsdesign som benytter naturlige eksperimenter eller observasjonsstudier. I slike design er det ofte vanskeligere å trekke sikre kausale konklusjoner, ettersom mange faktorer kan påvirke resultatene samtidig.

For forskere er det viktig å forstå disse begrepene for å kunne designe studier som gir pålitelige og meningsfulle resultater. Det betyr at man både må ta hensyn til hvordan resultatene kan generaliseres (ekstern validitet), samt hvordan man isolerer det faktiske forholdet mellom de studerte variablene fra andre påvirkninger (intern validitet).

Videre bør det også understrekes at selv om studien er godt designet, og forskeren har tatt høyde for eksterne og skjulte variabler, er det alltid en viss usikkerhet i vitenskapelig forskning. Resultatene fra en studie er aldri endelige bevis, men heller et bidrag til en større forståelse av et fenomen. En god forsker er derfor alltid åpen for videre testing og forfeiling av sine egne hypoteser, og forstår at vitenskapen er en kontinuerlig prosess med gradvis forbedring.

Hvordan sammenligne kvantitative data mellom individer?

Sammenligning av kvantitative data mellom individer innebærer å vurdere variasjoner i numeriske verdier for å trekke konklusjoner om forskjeller eller trender. Dette kan være nyttig i mange forskningsområder, fra studier om kjøretøybremsing til atferdsmønstre hos dyr eller mennesker. Når vi ser på data som kan variere fra en enhet til en annen, er det viktig å bruke passende metoder for å analysere og tolke resultatene.

Et godt eksempel på kvantitativ sammenligning kan være data fra et eksperiment som undersøker hvordan ekstra skilt påvirker bilens nedbremsing. Ved å sammenligne bremsedata før og etter at skiltene ble lagt til, kan vi få innsikt i hvorvidt tillegget av ekstra skilt virkelig forbedrer reaksjonstiden til bilførerne. Tabellen som viser nedbremsingsverdier før og etter skiltene, gir et klart bilde av forskjellene. For eksempel, før skiltene ble lagt til, var gjennomsnittlig nedbremsingshastighet omtrent 0,108 m/s², mens etter skiltene var det mange verdier som viste en merkbar endring, både i negativ og positiv retning.

Men det er ikke bare gjennomsnitt som er viktig i slike analyser. Et grundig blikk på variasjonen i dataene – som spredningen, standardavviket og medianen – kan gi oss en dypere forståelse av hvordan den enkelte deltaker eller kjøretøy reagerte på endringen. Dette kan visualiseres ved hjelp av programvare som gir grafiske fremstillinger av dataene, som for eksempel diagrammer som viser nedbremsing før og etter skiltene ble satt opp.

En annen interessant måte å analysere kvantitative data på er gjennom eksempler som involverer biologiske eller atferdsmessige studier. I et eksperiment med garterslanger fra Mexico, undersøkte forskerne hvordan slangenes lengde på snute-til-hale varierer mellom områder med og uten kreps. Gjennom sammenligning av disse dataene kan vi få innsikt i hvordan miljøfaktorer påvirker morfologi og vekst, og dermed kan det bidra til en bedre forståelse av slangenes tilpasningsevne i ulike økosystemer. Her kan vi bruke bokstaver som illustrerer lengden på slangen i ulike områder, og dermed sammenligne gruppene på tvers av ulike geografiske regioner.

Dataanalyse i slike eksperimenter krever en metodisk tilnærming for å unngå feiltolkninger. Et viktig aspekt er å ta hensyn til potensielle forstyrrende faktorer – eller konfundering – som kan påvirke resultatene. For eksempel, i et eksperiment om behandling av nyrestein, kan det være mange eksterne faktorer som påvirker resultatene, som behandlingsmetode, pasientens alder og helsetilstand. Derfor er det viktig å ta med ekstra variabler i analysen for å kontrollere for slike faktorer.

En annen viktig aspekt av kvantitativ sammenligning er å forstå hvordan man bruker statistiske verktøy som fordeling av data, sannsynlighetsberegning og regresjonsanalyse for å trekke pålitelige konklusjoner. Data kan presenteres på forskjellige måter, som i tabeller eller grafer, for å tydeliggjøre forholdet mellom variabler og gi en bedre forståelse av de underliggende mønstrene.

Det er også essensielt å bruke passende metoder for å sammenligne grupper. I eksemplet med behandling av nyrestein kan man benytte seg av to-veiskomparative tabeller, hvor dataene for de to behandlingsmetodene (A og B) kan analyseres på flere måter. Dette kan innebære å sammenligne suksessratene for begge metodene, som å beregne andelen vellykkede prosedyrer for hver behandlingsmetode og deretter sammenligne disse prosentene.

Når man sammenligner grupper med kvantitative data, er det også nødvendig å vurdere variasjonen innenfor hver gruppe. I tabellen som viser resultater for nyresteinbehandling, kan vi beregne odds for hver behandlingsmetode og dermed få innsikt i hvilken metode som er mer effektiv.

Det er også viktig å forstå betydningen av statistiske begreper som odds, odds-ratioer og p-verdier, da disse hjelper til med å tolke styrken på forholdet mellom variabler i kvantitativ forskning. For eksempel, i et eksperiment som sammenligner behandlingsmetoder, vil beregningene av odds for suksess gi en bedre forståelse av hvilke behandlingsmetoder som har høyest sjanse for å lykkes.

Korrekt tolkning av kvantitative data mellom individer krever derfor ikke bare tekniske ferdigheter i dataanalyse, men også en kritisk forståelse av hvordan ulike faktorer kan påvirke resultatene, samt hvordan man kan kontrollere for forstyrrende elementer. Dette innebærer også å ha et klart definert forskningsspørsmål, en passende studieutforming og metoder for datainnsamling og analyse, slik at resultatene kan generaliseres på en pålitelig måte.

Hvordan beregne et konfidensinterval for et gjennomsnitt?

Når man arbeider med et datasett, er det ofte viktig å kunne trekke konklusjoner om populasjonen basert på et utvalg. Ett verktøy for dette er konfidensintervall (CI), som gir et intervall hvor den sanne populasjonsverdien sannsynligvis ligger, basert på observasjonene i utvalget. For å beregne et konfidensintervall for et gjennomsnitt, er det noen grunnleggende trinn og forutsetninger som må vurderes.

Først og fremst må du beregne gjennomsnittet for utvalget (x̄) og finne ut størrelsen på utvalget (n). Deretter beregnes standardfeilen (standard error, SE) som kvantifiserer hvor mye gjennomsnittet kan variere fra utvalg til utvalg. Dette kan gjøres med formelen:

SE(xˉ)=sn\text{SE}(x̄) = \frac{s}{\sqrt{n}}

hvor ss er standardavviket for utvalget og nn er antallet observasjoner i utvalget. Når standardfeilen er beregnet, kan du beregne margen for feil, som bestemmes ved å multiplisere standardfeilen med en konstant (oftest 2 for et 95% konfidensintervall, som er basert på den empiriske 68-95-99.7 regelen). Den endelige formelen for CI blir:

CI=xˉ±(2×SE(xˉ))CI = x̄ \pm (2 \times \text{SE}(x̄))

La oss se på et konkret eksempel for å forstå prosessen bedre. Blair og Lamb (2017) studerte kadmiumkonsentrasjonen i peanøtter fra forskjellige regioner i USA. Gjennomsnittlig kadmiumkonsentrasjon i utvalget var 0,0768 ppm, med et standardavvik på 0,0460 ppm, basert på et utvalg på 290 peanøtter. Først beregner vi standardfeilen:

SE(xˉ)=0.0460290=0.002701\text{SE}(x̄) = \frac{0.0460}{\sqrt{290}} = 0.002701

Deretter beregnes margen for feil:

Margin for error=2×0.002701=0.00540\text{Margin for error} = 2 \times 0.002701 = 0.00540

Så det 95% konfidensintervallet blir:

CI=0.0768±0.00540=[0.0714,0.0822]CI = 0.0768 \pm 0.00540 = [0.0714, 0.0822]

Dette betyr at vi er 95% sikre på at den sanne gjennomsnittlige kadmiumkonsentrasjonen i populasjonen ligger mellom 0,0714 og 0,0822 ppm. Når vi sier at vi er "95% sikre", mener vi at hvis vi gjentar studien mange ganger, vil omtrent 95% av de beregnede konfidensintervallene inneholde den sanne populasjonsverdien.

For å vurdere om konfidensintervallet er statistisk gyldig, er det viktig å sjekke at visse forutsetninger er oppfylt. For eksempel, hvis histogrammet for dataene viser en ikke-normal fordeling, kan det bety at CI ikke er gyldig. Det er viktig at utvalget er tilstrekkelig stort (generelt sett minst 25) og at fordelingen til dataene ikke er alvorlig skjev.

For små utvalg eller data med ikke-normal fordeling kan det være nødvendig å bruke alternative metoder for å beregne CI, som resamplingsteknikker, som ikke er dekket i denne boken, men som kan være nyttige i praktiske situasjoner.

Det er også viktig å merke seg at konfidensintervallene ikke gir oss informasjon om den faktiske variasjonen i dataene eller om populasjonens spesifikke verdi, men heller om hvor vi forventer at populasjonsgjennomsnittet ligger basert på utvalget vårt. Det er ikke et mål for hvor "mange" observasjoner som ligger innenfor et gitt intervall, men snarere en vurdering av hvor pålitelig vårt utvalg er til å representere populasjonen.

Videre bør man være forsiktig med å tolke konfidensintervallene som en garanti for at den sanne populasjonsverdien nødvendigvis ligger innenfor intervallet. Selv om et 95% CI i teorien inneholder den sanne verdien 95% av gangene, er det fortsatt en 5% sjanse for at den ikke gjør det. Denne usikkerheten er en naturlig del av statistisk analyse.

Konfidensintervallene er et viktig verktøy for å vurdere påliteligheten av estimater, men for å kunne stole på resultatene, er det viktig å forstå både forutsetningene og begrensningene for beregningene. Å vite hvordan man beregner et CI og hvordan man tolker det i sammenheng med dataene er essensielt for å gjøre informerte beslutninger basert på statistiske analyser.

Hvordan analysere og forstå forskjeller i data fra en seks minutters gangtest

Seks minutters gangtest (6MWT) er en enkel og kostnadseffektiv metode for å vurdere fysisk form og helseforhold. Denne testen måler hvor langt en person kan gå på seks minutter, og brukes ofte til å overvåke fysisk kapasitet, spesielt ved ulike helseforhold. Den anbefalte testbanen er vanligvis minst 30 meter lang. I en studie utført av Saiphoklang et al. (2022) ble avstanden som ble gått vurdert med både 20 meter og 30 meter lange gangbaner. Resultatene ble analysert med parvise data, hvor forskjellene mellom gangavstandene for hver enkelt deltaker ble beregnet. Dette gir en god mulighet for å studere individuelle variasjoner.

I denne analysen er forskjellene mellom de to gangbanene relevante. En negativ forskjell betyr at den 20 meter lange banen ga en større avstand enn den 30 meter lange. Dette kan virke uventet, men det er viktig å forstå at en negativ forskjell i dette tilfellet ikke betyr en fysisk umulighet, men bare at den ene banen gav en høyere resultat enn den andre. Å sammenligne slike data kan gi nyttig informasjon om hvordan ulike faktorer som terreng, psykiske tilstander eller andre variabler kan påvirke resultatene.

Når vi analyserer data som disse, er det viktig å bruke riktig statistisk tilnærming. Parvise data er nyttige fordi de gjør det mulig å kontrollere for eksterne faktorer som kan variere mellom individer. Når to målinger tas fra samme person – for eksempel i dette tilfellet, to målinger av gangavstand på forskjellige baner – kan vi være mer sikre på at forskjellen mellom målingene er et resultat av selve testen og ikke av eksterne faktorer som alder, kjønn eller fysisk tilstand. Parvis dataanalyse er derfor en god strategi når deltakerne er like eller har mange fellestrekk.

Det er flere eksempler på bruk av parvise data. For eksempel kan hjertefrekvensen til tvillinger måles, der den ene trener regelmessig og den andre ikke gjør det. Forskjellen mellom tvillingenes hjertefrekvenser kan da analyseres for å få innsikt i hvordan fysisk aktivitet påvirker helsen. Et annet eksempel kan være å måle blodtrykket til to grupper med personer som får forskjellige medisiner, men der personene er matchet for kjønn, alder og vekt.

For å oppsummere 6MWT-dataene kan man bruke en histogram for å visualisere forskjellene mellom gangavstandene. For disse dataene kan et histogram av forskjellene (30 meter minus 20 meter) være svært nyttig. Dette vil gjøre det lettere å oppdage om noen deltakere gikk lengre på den ene banen, mens andre gikk lengre på den andre. En graf som viser forskjellene mellom målingene for hver person er viktig fordi den tydeliggjør endringene som er interessante for analysen. Hvis vi ikke parret dataene på denne måten, ville vi ikke hatt muligheten til å se disse forskjellene klart.

Ved videre statistisk analyse kan vi bruke numeriske oppsummeringer som gjennomsnitt og median for å forstå forskjellene mellom 20 meter og 30 meter gangavstand. For eksempel viste dataene fra studien at den gjennomsnittlige forskjellen i avstand var 22,03 meter, med en standardavvik på 22,039 meter. Denne informasjonen gir innsikt i variasjonen mellom deltakerne og gjør det mulig å trekke konklusjoner om hvilken bane som gir bedre resultater under testene.

Det er også viktig å merke seg at når vi analyserer slike data, kan vi bruke ulike statistiske metoder for å vurdere om forskjellene mellom de to gangavstandene er statistisk signifikante. For eksempel kan man bruke konfidensintervall (CI) og t-tester for å evaluere om de observerte forskjellene er reelle eller om de kan skyldes tilfeldigheter. Når man presenterer data på denne måten, bør det være klart at det er forskjeller, men også at variasjonene ikke nødvendigvis indikerer at den ene banen er bedre enn den andre for alle individer.

En annen viktig faktor å vurdere er hvordan valg av målemetoder kan påvirke resultatene. Det er mulig at noen deltakere har vært mer komfortable på den kortere banen, eller kanskje den lengre banen utfordret deres utholdenhet på en annen måte. I slike tilfeller kan det være nyttig å samle inn kvalitativ informasjon i tillegg til de kvantitative målingene, for å få et mer nyansert bilde av hva som påvirker resultatene.

I denne type forskning er det avgjørende å forstå hvordan eksterne faktorer kan påvirke resultatene. Det er ikke bare dataene som teller, men hvordan de er innsamlet og tolket. Å bruke parvise dataanalyse, visualiseringsteknikker som histogrammer og korrekt statistisk analyse gir oss en dypere forståelse av hvordan de forskjellige faktorene spiller sammen og påvirker testresultatene.