Bayesiansk tilnærming til dataanalyse er et kraftig rammeverk som omfavner usikkerhet i modellering av virkelige situasjoner. For å virkelig forstå hvordan Bayes' regel fungerer, er det avgjørende å begynne med de enkleste tilfellene – som for eksempel data med binomial sannsynlighet. Dette grunnleggende eksemplet er viktig, ikke bare for å forstå selve metoden, men også for å få en dypere innsikt i hvordan posterior-distribusjonen av et parameter oppstår som en kombinasjon av den prior distribusjon vi begynner med, og de observasjonene vi gjør.

Bayes' regel kan uttrykkes som følger: Når vi har to hendelser, A og B, som kan observeres, kan vi beregne sannsynligheten for at B skjer gitt A, ved å bruke formelen:

P(BA)=P(AB)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}

Når vi arbeider med datasett, kan denne regelen brukes til å beregne posterior-distribusjonen for parameterne vi er interesserte i. Bayes' regel i dette tilfellet kan skrives som:

p(yΘ)×p(Θ)=p(Θy)p(y|\Theta) \times p(\Theta) = p(\Theta|y)

hvor yy representerer dataene våre, og Θ\Theta er parameterne vi ønsker å estimere.

I denne sammenhengen kan vi beskrive hvert av elementene som følger:

  • Posterior p(Θy)p(\Theta|y) er den oppdaterte sannsynligheten for parameterne basert på de observerte dataene.

  • Likelihood p(yΘ)p(y|\Theta) er den sannsynligheten for å observere dataene gitt parameterne.

  • Prior p(Θ)p(\Theta) er vår antatte sannsynlighet for parameterne før vi har sett dataene.

  • Marginal Likelihood p(y)p(y) normaliserer posterioren slik at det totale området under kurven summerer seg til 1, og dermed sørger for at posterioren er en gyldig sannsynlighetsfordeling.

Et Eksempel på Bayesiansk Estimering

Et godt eksempel på hvordan Bayes' regel fungerer, kan hentes fra et klamydiaprobabilitetsproblem. La oss si at vi har 100 personer som blir spurt om å fullføre setningen "Det regner, jeg skal ta med meg ...". 80 av dem velger "paraply", og vi estimerer sannsynligheten for å velge dette ordet som 0.8. Dette er vårt maksimal sannsynlighet estimering (θ^=0.8\hat{\theta} = 0.8).

I en hyppigistisk tilnærming vil θ^\hat{\theta} bli betraktet som et punktestimat av en ukjent parameter θ\theta. Men i den bayesianske tilnærmingen behandles θ\theta som en stokastisk variabel, og vi kan tildele en sannsynlighetsfordeling til denne parameteren før vi observerer dataene.

For eksempel, før vi har sett noen data, kan vi anta at θ\theta har en uniform distribusjon fra 0 til 1 (dvs. vi tror at alle verdier for θ\theta er like sannsynlige). Etter å ha utført eksperimentet, vil den posterior sannsynlighetsfordelingen for θ\theta bli justert basert på de observerte dataene.

Variabilitet i Estimater

Når vi estimerer et parameter som θ\theta på bakgrunn av observasjoner, vil variasjonen i estimatet også være påvirket av både datavariabilitet og usikkerheten i den prior sannsynligheten vi har valgt for θ\theta. Hvis vi tror at θ\theta er mer usikker, vil variasjonen i de estimerte resultatene øke. På den annen side, hvis vi tror at θ\theta er mer bestemt før vi ser dataene, vil variasjonen i resultatene reduseres.

For å illustrere dette, kan vi simulere et eksperiment der vi antar at θ\theta har en uniform sannsynlighetsfordeling mellom 0 og 1. Ved å kjøre eksperimentet flere ganger ser vi at standardavviket for de estimerte verdiene kan variere avhengig av hvordan vi setter prioren for θ\theta.

Likelihood og Binomialfordeling

Når vi jobber med datasett som følger en binomialfordeling, er det viktig å forstå hvordan sannsynligheten for et bestemt utfall kan uttrykkes ved hjelp av en binomial sannsynlighetmassefunksjon. For eksempel, hvis vi gjennomfører et eksperiment med 100 deltakere og får at 80 av dem velger “paraply”, kan vi bruke binomialfordelingen til å beregne sannsynligheten for dette utfallet gitt en spesifikk verdi for θ\theta.

I vårt eksempel er k=80k = 80 antall ganger vi får "paraply", og n=100n = 100 er antall forsøk. Binomialfordelingen for dette utfallet vil være:

P(k=80n=100,θ)=(10080)θ80(1θ)20P(k=80|n=100,\theta) = \binom{100}{80} \theta^{80} (1 - \theta)^{20}

Denne funksjonen uttrykker sannsynligheten for å få akkurat 80 valg av "paraply" når parameteren θ\theta er kjent. Dette står i kontrast til en hyppigistisk tilnærming, hvor θ\theta betraktes som en ukjent fast verdi.

Viktige Innspill

For leseren er det viktig å forstå at den bayesianske tilnærmingen representerer en betydelig avvik fra den hyppige tilnærmingen. I den hyppige tilnærmingen ses parameteren som en fast, ukjent størrelse, mens i den bayesianske tilnærmingen behandles parameteren som en stokastisk variabel som har en sannsynlighetsfordeling før vi observerer dataene.

I praksis betyr dette at i stedet for å estimere én sann verdi for et parameter, som i hyppige metoder, får vi en distribusjon som uttrykker alle mulige verdier for parameteren sammen med sannsynligheten for at hver verdi er korrekt. Dette gjør den bayesianske metoden mer fleksibel og i stand til å håndtere usikkerhet på en mer eksplicit måte.

En annen viktig idé som ligger i kjerne av Bayesiansk dataanalyse er hvordan prioren kan påvirke resultatene våre, spesielt i situasjoner der dataene er sparsomme. Å velge en god prior er en kunst i seg selv og kan påvirke hvor mye vekting som gis til dataene sammenlignet med den forhåndsbestemte troen på parameterens verdi. Dette er en utfordring for alle som prøver å bruke Bayesiansk analyse på komplekse datasett.

Hvordan kan Bayes' teorem kvantifisere usikkerhet i vitenskapelig analyse?

Bayes’ teorem tilbyr en formell metode for å kvantifisere usikkerhet rundt vår tro på et vitenskapelig spørsmål, gitt tilgjengelige data. For å forstå dette må man ha en grunnleggende forståelse av sannsynlighet, stokastiske variabler, sannsynlighetsfordelinger og sannsynlighetens konsept som helhet. Disse begrepene kan til å begynne med virke abstrakte, men de danner fundamentet for å gjennomføre en Bayesiansk analyse.

Sannsynlighet kan forstås på flere måter, men to hovedperspektiver dominerer: det frekventistiske og det subjektive. Det frekventistiske perspektivet definerer sannsynlighet som den relative frekvensen et resultat forekommer ved gjentatte observasjoner under identiske betingelser, som for eksempel å få en sekser når man kaster en terning mange ganger. Dette perspektivet fungerer godt når man kan tenke seg gjentatte, uavhengige forsøk.

Imidlertid er ikke alle hendelser repeterbare, og for unike hendelser som jordskjelv eller historiske hendelser er det uhensiktsmessig å bruke frekvensbaserte sannsynligheter. Her kommer det subjektive synet inn, der sannsynlighet representerer graden av usikkerhet eller tro på at en hendelse vil inntreffe. Begge synspunktene er gyldige i statistisk inferens og utfyller hverandre i ulike situasjoner.

For å konkretisere dette kan vi betrakte et eksperiment hvor en person besvarer ti ja/nei-spørsmål om betydningen av en setning, og resultatet er en sekvens av korrekte og feil svar, for eksempel c i i i c i c i i c. Utfallet, kalt ω, tilhører det totale utfallsrommet Ω som består av alle mulige kombinasjoner av korrekte og feil svar. En hendelse E kan defineres som et delsett av Ω, for eksempel hendelsen at personen har ett korrekt svar, som da inkluderer alle sekvenser med nøyaktig ett c og ni i.

Bayes’ teorem kobler slik data med våre forutgående antagelser (priorer) for å oppdatere troen vår i lys av ny informasjon (posterior). Den formelle mekanismen gjør at vi kan uttrykke vår usikkerhet kvantitativt, noe som er essensielt i all vitenskapelig analyse hvor data sjelden gir absolutt sikkerhet.

Det er viktig å erkjenne at forståelsen av sannsynlighet både som en frekvens og som subjektiv tro åpner for en rikere og mer fleksibel tilnærming til dataanalyse. Det gjør det mulig å arbeide med både repeterbare eksperimenter og unike hendelser, og å tolke statistiske resultater som uttrykk for vår grad av tro heller enn som endelige sannheter.

I tillegg til det formelle rammeverket er det nødvendig å ha en dypere forståelse av begreper som stokastiske variabler og sannsynlighetsfordelinger, da disse definerer hvordan vi modellerer usikkerheten i dataene. Sannsynligheten til en hendelse er alltid begrenset til intervallet mellom 0 og 1, og må tolkes innenfor konteksten av den valgte modellen og forutsetningene den bygger på.

Å beherske Bayesiansk tenkning innebærer også å forstå hvordan man kan navigere mellom modellvalg, tolkning av posteriorfordelinger, og hvordan denne usikkerheten kan formidles på en klar måte. Det innebærer en løpende prosess hvor man kan revidere hypoteser basert på nye data, og dermed gi et dynamisk bilde av kunnskapens utvikling.

Hva kan vi lære fra tverrvalidering og modellvalg?

Når vi vurderer nøyaktigheten til en statistisk modell, er det flere metoder som kan benyttes for å vurdere hvordan godt modellen generaliserer til nye, usette data. En av de mest populære teknikkene er kryssvalidering, som er utviklet for å gi oss en indikasjon på modellens prediktive nøyaktighet. Det finnes flere typer kryssvalidering, og de gir oss forskjellige perspektiver på hvordan modellen fungerer i praksis. En sentral del av kryssvalideringen er beregningen av LOO (Leave-One-Out) kryssvalidering, som brukes for å estimere modellenes evne til å forutsi nye observasjoner basert på dataene vi har tilgjengelig.

Et viktig begrep knyttet til LOO er elpd (Expected Log Predictive Density), som gir et mål på hvordan godt modellen predikerer de observerte dataene. Denne metoden er spesielt nyttig for å vurdere modeller i sammenheng med deres faktiske prediktive kapasitet. Ved å bruke en PSIS-LOO (Pareto Smoothed Importance Sampling Leave-One-Out) tilnærming, kan vi beregne elpd verdier for hver modell. Men det er viktig å merke seg at PSIS-LOO kan være upålitelig hvis vi har store Pareto (𝑘̂)-estimater, som kan indikere problemer med modellen eller dataene.

Et annet viktig mål er looic, som er en informasjonsteori-basert beregning som hjelper oss å forstå modellenes prediktive nøyaktighet på en mer historisk informert måte. looic er rett og slett -2 ganger elpd, og den brukes ofte i kombinasjon med andre kriterier som AIC (Akaike Information Criterion) og DIC (Deviance Information Criterion) for å sammenligne modeller. Det er imidlertid viktig å merke seg at begge disse kriteriene ikke er så godt tilpasset modeller med sterke heterogene effekter, og derfor er LOO-CV (og PSIS-LOO spesielt) et bedre alternativ i mange tilfeller.

En utfordring som kan oppstå er at forskjellen i prediktiv nøyaktighet mellom to modeller ikke nødvendigvis er stor nok til å skille dem, selv om de ser ut til å gjøre forskjellige prediksjoner på overflaten. For eksempel, når vi ser på en modell som inkluderer en cloze-probabilitet som prediktor i en N400-effektmodell, kan LOO-kryssvalidering vise at forskjellen i nøyaktighet er liten, til tross for at den ene modellen har en ekstra prediktor. Dette kan være forvirrende, spesielt når tidligere forskning har vist at en slik effekt er signifikant. Men på en annen side kan vi også observere at flere av de alternative modellene som brukes, ikke nødvendigvis gir en betydelig bedre prediksjon.

I slike situasjoner kan vi benytte andre metoder for å kontrollere robustheten til resultatene. For eksempel kan K-fold-CV være et nyttig alternativ. Denne metoden gir oss en annen tilnærming til kryssvalidering, der dataene deles opp i flere "folds" eller biter, og modellen evalueres på hver fold. Dette kan gi et mer presist bilde av modellens generaliseringsevne, ettersom det fjerner en del av tilnærmingen som PSIS-LOO medfører. Samtidig innebærer K-fold-CV at treningssettet er mindre enn i LOO, noe som kan føre til at tilnærmingen til den sanne genererende prosessen blir noe forvrengt.

Når man bruker K-fold-CV, er det viktig å være bevisst på hvordan dataene deles opp i folds. Hvis dataene deles tilfeldig, kan vi risikere at noen fold har en fullstendig mangel på observasjoner fra visse grupper av deltakere. For eksempel, hvis vi jobber med data fra flere individer, kan det være viktig å bruke stratifisering for å sikre at alle grupper er tilstrekkelig representert i hver fold. Dette kan gjøres ved hjelp av funksjoner som kfold() i statistikkpakken brms, der man kan spesifisere en gruppevariabel, som for eksempel deltaker-ID, og velge om foldene skal være stratifiserte eller ikke. På denne måten unngår vi at enkelte grupper blir underrepresentert i treningsdataene.

En annen interessant tilnærming er Leave-One-Group-Out-Cross-Validation (LOGO-CV), som skiller seg fra vanlig K-fold ved at hele grupper av observasjoner (for eksempel personer) fjernes fra treningssettet i stedet for enkeltobservasjoner. Dette gir oss en indikasjon på modellens evne til å generalisere til helt nye grupper som modellen ikke har sett før. Når vi bruker LOGO-CV, kan vi forvente at forskjellen i prediktiv nøyaktighet mellom modeller som inkluderer og modeller som ikke inkluderer visse prediktorer vil være mer utsatt for større variasjon, spesielt i små datasett.

Begge tilnærmingene, K-fold og LOGO, gir viktige innblikk i hvordan modellen vil fungere på nye data, men de har forskjellige styrker og svakheter. K-fold kan være bedre når vi ønsker å vurdere modellens nøyaktighet for et bredt spekter av data, mens LOGO er mer fokusert på modellens evne til å generalisere til helt nye grupper av data.

En annen viktig refleksjon er at kryssvalidering ikke nødvendigvis kan gi oss en klar, entydig rangering av modeller i alle tilfeller. I mange tilfeller, som i eksemplet med N400-effekten, kan vi oppleve at forskjellen i prediktiv nøyaktighet mellom modeller er liten, og det kan være vanskelig å avgjøre hvilken modell som er best ut fra et kryssvalideringsperspektiv alene.

Når man vurderer ulike modeller i lys av kryssvalidering, er det viktig å ha i bakhodet at statistiske resultater ikke alltid gir et enkelt svar. Tverrvalidering gir oss informasjon om hvordan modeller fungerer, men den kan også reflektere kompleksiteten i dataene og måten dataene er strukturert på. Det er derfor viktig å bruke en kombinasjon av tilnærminger og å være oppmerksom på de potensielle begrensningene til de valgte metodene.