I Bayesiansk statistikk spiller valg av priors en avgjørende rolle i hvordan vi tolker dataene våre. Selv om det finnes mange metoder for å fastsette priors, og noen ganger kan det virke som om de ikke har stor innvirkning når det er rikelig med data, er det likevel viktig å forstå hvordan de kan påvirke resultatene av modellen. Når det er tilstrekkelig med data, vil den statistiske sannsynligheten – også kjent som likelihood – dominere i bestemmelsen av posterior-fordelingene. Likevel, selv i slike tilfeller, kan valg av velregulerte priors bidra til å akselerere konvergensen av modellen og gjøre prosessen mer effektiv.

Et viktig aspekt ved valg av priors er å utføre en følsomhetsanalyse. Dette innebærer å prøve ulike priors og observere hvordan de påvirker den estimerte posterior-fordelingen. I psyklingvistiske studier har det blitt vist at valg av priors kan ha en betydelig innvirkning på resultatene, selv når datasettet er stort nok til at likelihood spiller hovedrollen. Gjennom slike analyser kan man vurdere hvor robust modellen er i forhold til forskjellige antagelser om parameterne.

En annen sentral del av Bayesiansk modellering er den posterior-prediktive distribusjonen. Dette er en samling av datasett generert fra modellen, inkludert både likelihood og priors. Når man har beregnet posterior-fordelingene for parameterne, kan man bruke disse for å generere fremtidige data, og dermed få en idé om hvordan fremtidige observasjoner kan se ut. Dette adskiller seg fra den hyppighetsteoretiske tilnærmingen, som gir et punkt-estimat for hver prediksjon, mens Bayesiansk tilnærming gir en distribusjon av mulige verdier.

Matematisk kan dette uttrykkes gjennom en integralberegning, der vi integrerer ut de ukjente parameterne for å oppnå en fordeling for de predikerte observasjonene. Dette gir oss en mer nyansert forståelse av de mulige utfallene, i motsetning til punktverdiene som man finner med hyppighetsteori.

I praksis kan man benytte funksjoner som posterior_predict() i R-pakken brms for å trekke prøver fra den posterior-prediktive distribusjonen. Dette gir et rammeverk for å simulere fremtidige data og evaluere modellens ytelse. Man kan også bruke disse distribusjonene til å utføre posterior-prediktiv sjekking, en metode for å undersøke hvor godt den predikerte dataen fra modellen samsvarer med de observerte dataene.

Posterior-prediktiv sjekking er en viktig del av vurderingen av modellens beskrivende adekvathet. Dersom de predikerte dataene ser ut til å være veldig forskjellige fra de observerte dataene, kan dette være et sterkt argument mot modellen. Selv om en modell kan gi en god passform til de eksisterende dataene, betyr det ikke nødvendigvis at den er en god modell for andre datasett eller for fremtidige observasjoner. Det er derfor viktig å undersøke modellens evne til å generalisere, noe som kan gjøres gjennom posterior-prediktiv sjekking.

I Bayesiansk statistikk er det avgjørende at vi ikke bare stoler på den estetiske tilpasningen mellom den observerte og predikerte dataen, men også på modellens generelle evne til å forutsi et realistisk spekter av fremtidige hendelser. Selv om det ikke alltid er en entydig indikasjon på modellens styrke, gir det oss en viktig sjekk på om vi kan stole på modellens prediksjoner i praksis. Å kombinere posterior-prediktiv sjekking med andre evalueringsmetoder, som kryssvalidering, kan ytterligere styrke troverdigheten til modellene vi bygger.

Det er viktig å merke seg at Bayesiansk modellering ikke bare handler om å finne den beste tilpasningen til dataene, men også om å bruke våre forutsetninger om verden på en informert og ansvarlig måte. Derfor bør valg av priors alltid reflektere hva vi vet, eller hva vi tror, om fenomenet vi studerer. Dette kan inkludere kunnskap fra tidligere studier, eksperter eller teoretiske antakelser.

Hvorfor mislykkes vårt "maximale" hierarkiske modell på distribusjonen av data per deltaker?

En vanlig utfordring i statistiske modeller er hvorfor de "maksimale" hierarkiske modellene ikke alltid passer til de spesifikke fordelingene av data på deltaker-nivå. Dette skjer fordi de maksimale modellene, både generelt og implicit, har en struktur der gruppenivåeffektene er maksimale for plasseringens parametere – for eksempel gjennomsnittet (𝜇) i en normalmodell. Andre parametere, som for eksempel skala- eller formparametere, estimeres som hjelpemidler og antas å være konstante på tvers av observasjoner og klynger. Denne antakelsen er så vanlig at forskere kanskje ikke er klar over at det egentlig kun er en antakelse.

I den bayesiske rammen er det enkelt å endre slike standardantakelser dersom det er nødvendig. Et slikt skifte, som å anta at alle deltakere har samme residual standardavvik, kan lede til en distribusjonell regresjonsmodell. Ved å gjøre denne endringen kan vi også anta at skalaen (𝜎) kan variere, og gi modellen en mer realistisk beskrivelse av variabilitet på deltaker-nivå. Et slikt endret modellvalg kan faktisk føre til en mye bedre passform til dataene.

Modellen som benyttes i analysen her, er en hierarkisk modell med normal sannsynlighetsfordeling, og den er tilpasset ved hjelp av brms-pakken i R. Modellen undersøker effekten av N400, et mål på hjernens aktivitet, og distribusjonene tilhørende gjennomsnittlige signaldata for 37 deltakere. Grafene i figurene som er nevnt, viser hvordan de forutsagte distribusjonene (𝑦𝑟𝑒𝑝) og de faktiske observasjonene (𝑦) samsvarer for deltakerne, noe som er en god indikasjon på at modellen passer bedre når vi tar hensyn til individuell variasjon.

Men som alltid i statistikk er spørsmålet: Hvor mye struktur bør vi egentlig legge til i modellen? Er det også nødvendig å anta at skalaen kan variere for hver "item" eller eksperimentell manipulasjon? Dette er et viktig spørsmål, og det finnes ingen entydige svar. Mengden kompleksitet vi kan innføre i en statistisk modell, avhenger av flere faktorer:

  1. Hva vi ønsker å finne ut: Vi bør inkludere parametere som representerer det vi ønsker å estimere, for eksempel spesifikke effekter eller variabilitet.

  2. Datastørrelse: Mer komplekse modeller krever mer data. Dette kan innebære flere observasjoner innen deltakere, eller flere deltakere generelt.

  3. Databehandlingskraft: Jo mer kompleks modellen er, jo mer datakraft kreves for å gjennomføre beregningene. Mer tid og ressurser må brukes på å få modellene til å konvergere.

  4. Domeneekspertise: Kunne vite om det er spesifikke elementer i datamaterialet som har større betydning for den statistiske inferensen, som kan identifiseres gjennom teknikker som Bayes-faktorer.

En sentral ide er at alle modeller er forenklinger av virkeligheten. Modellen vi velger må være enkel nok til at vi kan forstå hva den prøver å forklare, men samtidig kompleks nok til å fange de viktigste aspektene av fenomenet vi studerer. Dette er en balanse som kan være vanskelig å finne. For eksempel argumenterer McClelland (2009) for at modeller bør unngå å fokusere på hver minste detalj av prosessene de prøver å beskrive. Modellen må være tilstrekkelig enkel for at vi skal kunne forstå den. Men som han også påpeker, kan forenkling ha en innvirkning på hva vi kan konkludere fra analysen. Ved å forenkle kan vi utelate viktige faktorer, eller til og med komme til feilaktige prediksjoner.

I lys av dette er det viktig å ha en klar forståelse av hvilke faktorer som virkelig påvirker de inferensene vi ønsker å trekke fra våre analyser. Om det er behov for å introdusere en mer kompleks modell for å fange spesifikke elementer, avhenger både av hva vi ønsker å estimere og hvilke antakelser vi er villige til å gjøre om dataene våre. Dette krever at vi tar en grundig vurdering av datamengde, databehandlingskapasitet og, ikke minst, det vitenskapelige målet med analysen.

Hvordan takle utfordringer med hierarkiske modeller i Stan: Reparameterisering og korrelasjoner mellom subjektintersept og helling

I kompleks statistisk modellering, spesielt når man arbeider med hierarkiske modeller, kan det oppstå en rekke utfordringer knyttet til konvergens, samplingskvalitet og påliteligheten til de estimerte parametrene. Disse problemene kan være vanskelige å diagnostisere, men med riktig forståelse og passende tilnærminger kan de overvinnes. I denne sammenhengen er det spesielt viktig å være oppmerksom på problemer relatert til lav effektiv prøvestørrelse (ESS), dårlig blanding av kjeder, og usikre estimater av varians og kvantilverdier. Stan, et programvareverktøy for statistisk modellering, gir flere diagnostiske advarsler som kan hjelpe oss å forstå hva som skjer i modellen.

En typisk advarsel som dukker opp under kjøring av modeller, kan være knyttet til lav "Bayesian Fraction of Missing Information" (BFMI) i noen kjeder, som indikerer at modellen ikke har konvergert på riktig måte, eller at det er problemer med miksingen av kjedene. Et annet vanlig problem er når den største R-hat verdien er NA, noe som betyr at kjedene har dårlig blanding. Dette kan i sin tur føre til at estimatene av posteriori fordelinger blir unøyaktige. Når slike advarsler oppstår, er det viktig å vurdere å kjøre flere iterasjoner for å bedre blande kjedene og forbedre ESS, både for bulk og hale, som begge kan være for lave.

I et praktisk eksempel, i en modell for EEG-korrigering som benytter en hierarkisk tilnærming, er det tydelig at de dårlig blandende kjedene for parameteren tau_u[2] kan forårsake problemer. Spesielt, når man ser på traceplots, er det lett å observere at tau_u[2] har en sterk avhengighet til en annen parameter, noe som skaper en "trakt"-effekt. Dette er et tegn på at modellen trenger en reparameterisering for å løse problemet.

En effektiv løsning på dette er å bruke Cholesky-faktorisering, som gir en bedre håndtering av korrelasjoner mellom intercepts og hellinger i modeller. Denne tilnærmingen innebærer at man bruker en ny type matrisefaktor, som cholesky_factor_corr, som kan håndtere korrelasjoner mellom de forskjellige justeringene for intercepts og hellinger på en mer robust måte. Ved å bruke en slik reparameterisering, som beskrevet i den oppdaterte Stan-modellen, kan man løse problemet med dårlig miksing og få mer pålitelige estimater av de ulike parameterne.

I modellen som benytter denne tilnærmingen, implementeres flere nye funksjoner som gjør det mulig å definere korrelasjoner mellom justeringene for intercept og helling både for subjektene og for objektene (i vårt tilfelle EEG-signaler). Reparameteriseringen gjør det mulig å uttrykke disse forholdene i en matematisk form som er lettere å håndtere i Stan, og som sikrer en bedre konvergens.

Ved å definere en Cholesky-faktor, kan man kalkulere en 2x2 korrelasjonsmatrise som beskriver forholdet mellom justeringene for både subjektene og objektene. Denne matrisen kan deretter brukes til å evaluere effekten av de forskjellige parametrene på signalet, og for å visualisere sammenhengen mellom disse effektene. Når man ser på histogrammer av posteriordistribusjonene for parameterne beta og rho_u, kan man observere om det er noen signifikante korrelasjoner mellom intercept og helling for ulike subjekter. Hvis fordelinger er spredt bredt, kan det tyde på at dataene ikke gir tilstrekkelig informasjon til å estimere korrelasjonen på en presis måte, og at den brede spredningen hovedsakelig gjenspeiler prior-informasjonen.

For å håndtere usikkerhet i modellen, har vi lagt til flere priors og hyperpriors som reflekterer potensiell korrelasjon mellom justeringene av intercepts og hellinger både på subjekt- og objekt-nivå. Denne tilnærmingen gir et mer realistisk bilde av hvordan de ulike effektene kan variere og samhandle i den hierarkiske strukturen. Priors for parametrene som alpha, beta og sigma er satt til normalfordelinger med store variansverdier, noe som gir fleksibilitet til modellens estimering. Den spesifikke korrelasjonen mellom subjekt- og objektjusteringer er definert gjennom LKJ-korrelasjonsdistribusjonen, som gir et statistisk rammeverk for å modellere korrelasjoner mellom disse justeringene.

Det er viktig å merke seg at til tross for at reparameteriseringen kan hjelpe med å håndtere konvergensproblemer og dårlig miksing, kan det fortsatt være usikkerhet knyttet til estimatene, spesielt når dataene ikke er tilstrekkelige til å gi presise vurderinger av parametrene. Dette kan medføre at visse estimater fortsatt vil være upålitelige, og at resultatene må tolkes med forsiktighet.

Denne tilnærmingen er spesielt nyttig når man ønsker å modellere data der både individuelle forskjeller mellom subjektene og variasjonene mellom objektene er viktige. Ved å bruke hierarkiske modeller med reparameterisering, kan vi bedre forstå og kvantifisere effekten av disse variablene, og hvordan de samhandler for å påvirke den observerte responsen.

Hva er betydningen av Bayes-faktorer i eksperimentelle studier av grammatisk tiltrekning?

Bayes-faktorer er et sentralt verktøy i Bayesiansk statistikk og gir en måte å vurdere styrken på evidens for ulike hypoteser i sammenheng med eksperimentelle data. I studier som undersøker fenomenet grammatisk tiltrekning i setninger, har Bayes-faktorer vist seg å være spesielt nyttige, ettersom de gir en statistisk vurdering av hvorvidt den observerte effekten er signifikant eller om den kan ha oppstått tilfeldig. Grammatisk tiltrekning refererer til fenomenet hvor et subjekt i en setning påvirker bøyningen av et verb på en grammatisk feilaktig måte, vanligvis ved å tiltrekke seg flertallsbøyning selv om det skulle være et entallsubjekt.

I eksperimentelle oppsett har man brukt ulike metoder, inkludert øyetracking og selvstyrt lesing, for å undersøke effekten av grammatisk tiltrekning. I en studie utført av Lago et al. (2015) på spansk ble det benyttet et selvstyrt leseeksperiment for å analysere effekten av grammatisk tiltrekning i setninger. I dette eksperimentet benyttes en hierarkisk modell for å analysere dataene, hvor lesetiden for deltakerne blir brukt som en avhengig variabel. Dette gir et mål på hvor raskt deltakerne leser setningene, som igjen kan gi indikasjoner på om de finner enkelte setningstyper lettere å prosessere enn andre.

Eksperimentet undersøker hvordan setningens struktur påvirker lesetiden, og i denne sammenhengen er det spesielt interessant å vurdere forskjellen i lesetid mellom to ulike betingelser, en hvor grammatisk tiltrekning er til stede og en uten. Ved å bruke Bayes-faktorer kan man sammenligne en full modell som tar hensyn til effekten av grammatisk tiltrekning, mot en nullmodell som antar at det ikke er noen effekt. Bayes-faktoren gir deretter en målbar verdi som indikerer styrken på evidensen for den alternative hypotesen – at det finnes en forskjell i lesetid mellom betingelsene.

Resultatene fra denne analysen viser at det er en signifikant forskjell i lesetid, og at denne effekten er i tråd med forventningene om at setningene med flertallsbøyning blir lest raskere. Bayes-faktoren, som i dette tilfellet er 6,59, indikerer at den alternative modellen, som inkluderer effekten av grammatisk tiltrekning, er 6,59 ganger mer sannsynlig enn nullmodellen, som ikke inkluderer denne effekten. Dette gir en sterk indikasjon på at grammatisk tiltrekning faktisk påvirker lesetiden, og dermed at det er en reell effekt.

I tillegg til å bruke Bayes-faktorer til å vurdere effekten av grammatisk tiltrekning, kan disse faktorene også brukes til å vurdere hvor robust resultatene er. Ved å kjøre simuleringer med realistiske data kan man undersøke hvordan Bayes-faktorene kan variere over flere repeterte eksperimenter, og på den måten få innsikt i hvor mye informasjon som er inneholdt i dataene. Ved å bruke posterior predictive distribusjoner, som er generert fra tidligere analyser, kan man simulere nye datasett og deretter beregne Bayes-faktorer på disse simuleringene. Dette gir en mer grundig forståelse av hvordan variabiliteten i resultatene kan påvirke konklusjonene som trekkes.

En viktig detalj å merke seg er hvordan priors for Bayesianske analyser kan bestemmes. I dette tilfellet ble priorene for den eksperimentelle manipuleringen av grammatisk tiltrekning hentet fra en publisert meta-analyse av tidligere studier. Gjennom meta-analyse kan man få et mål for effekten av grammatisk tiltrekning, og disse estimerte verdiene kan benyttes som priors i de Bayesianske modellene. Dette hjelper til med å sikre at modellene er godt informert av tidligere forskning og gir mer presise estimater.

For å oppnå nøyaktige resultater i Bayesianske analyser er det også viktig å bruke riktige distribusjoner og å forstå hvordan disse distribusjonene påvirker modellens estimering. For eksempel, mens individuelle lesetider vanligvis ikke følger en normalfordeling, kan de heller beskrives med en log-normal fordeling, noe som er antatt i den Brms-modellen som brukes i denne studien. Denne detaljen er viktig for å sikre at analysen reflekterer de faktiske forholdene i dataene.

I sum gir bruken av Bayes-faktorer en verdifull metode for å evaluere hypoteser i eksperimentelle studier om grammatisk tiltrekning. Det tillater forskere å vurdere styrken på evidensene for ulike hypoteser og å trekke konklusjoner basert på de tilgjengelige dataene. Gjennom Bayesianske metoder kan man også få en dypere forståelse av usikkerheten og variasjonen i forskningsresultater, noe som er avgjørende for å bygge pålitelig og meningsfull vitenskapelig kunnskap.

Endringene i lesetid og hvordan de relaterer seg til grammatiske feil kan gi innsikt i menneskelig språkforståelse, og kan også ha implikasjoner for hvordan vi forstår mentale prosesser knyttet til språkproduksjon og -persepsjon. Grammatisk tiltrekning er ikke bare et interessant fenomen for lingvister, men kan også bidra til den større diskusjonen om hvordan hjernen håndterer språklige feil og feilaktige persepsjoner av grammatikk.

Hvordan sammenligne ulike sannsynlighetsmodeller med kryssvalidering

Kryssvalidering gir et kraftig verktøy for å sammenligne ulike modeller, spesielt når man vurderer deres prediktive nøyaktighet. En interessant tilnærming til å bruke kryssvalidering er å sammenligne modeller som benytter forskjellige sannsynlighetsfordelinger. Et klassisk eksempel er sammenligningen mellom log-normal og normalfordeling for tidsresponsdata. I kapittel 3, seksjon 3.7.2, ble det vist at en log-normal fordeling er mer hensiktsmessig enn en normalfordeling for slike data, ettersom responstider er begrenset til positive verdier og er skjeve mot høyere verdier, i motsetning til den symmetriske normalfordelingen.

For å undersøke prediktiv nøyaktighet nærmere, kan vi bruke PSIS-LOO-CV for å sammenligne et modell som antar en log-normal sannsynlighet for tidsresponsen i Stroop-testen, med en annen modell som antar en normalfordeling. Dette krever at vi først laster inn dataene og oppretter en prediktor med sum-koding. Etter å ha tilpasset modellen for log-normal sannsynlighet, kan vi beregne 𝑒𝑙𝑝𝑑_loo (eller "Leave-One-Out Cross-Validation" estimat), som gir oss et mål for modellens prediktive nøyaktighet.

Ved å sammenligne de to modellene ved hjelp av kryssvalidering, finner vi at modellen med log-normal fordeling er langt bedre egnet til å beskrive dataene. Forskjellen mellom modellene blir tydelig når vi vurderer hvordan de håndterer langsomme responstider. En grundigere analyse viser at log-normal modellen har en betydelig fordel, spesielt for observasjoner med responstider rundt 500 ms. Dette kan visualiseres med et punktdiagram som sammenligner de prediktive feilene mellom de to modellene.

Videre viser analysen at når vi bytter til en modell med normalfordeling, trenger vi å justere priorene, ettersom en normalfordeling opererer på en annen skala (i millisekunder). Valg av priorer kan ha en stor effekt på resultatene, men kryssvalidering vil kun påvirkes av priorenes effekt på den posteriori distribusjonen. Det er viktig å merke seg at kryssvalidering, til tross for sine styrker, også har sine begrensninger når det gjelder å skille ut veldig små effektstørrelser fra null, spesielt i modeller som gir lignende prediksjoner.

En annen viktig detalj er hvordan modellen håndterer observasjoner med store k̂-verdier, som kan være problematiske for nøyaktigheten av kryssvalidering. For slike observasjoner bør man vurdere å bruke nøyaktig LOO i stedet for tilnærmet kryssvalidering, da dette kan gi mer pålitelige resultater.

Kryssvalidering har også sine svakheter i situasjoner der modellene gir svært like prediksjoner, for eksempel i tilfeller med veldig små effektstørrelser. Når modellene gjør lignende prediksjoner, blir usikkerhetsestimatene svært ustabile, og kryssvalidering blir derfor mindre nyttig for å skille mellom effektstørrelser som er nær null. I slike tilfeller kan forskjeller i prediktiv ytelse være vanskelig å påvise, særlig når antall observasjoner er begrenset.

Sivula, Magnusson og Vehtari (2020) peker på tre spesifikke tilfeller hvor usikkerhetsestimatene kan være dårlige: når modellene gjør veldig like prediksjoner, når antallet observasjoner er lite, eller når dataene inneholder uteliggere som påvirker resultatene. Disse utfordringene gjelder spesielt for metoder som LOO-CV, men kan også forekomme i K-fold-CV og andre kryssvalideringsteknikker. I tilfeller der modellene er feilspesifisert eller har uteliggere, kan kryssvalidering gi unøyaktige resultater, noe som gjør det vanskelig å stole på konklusjonene.

I tillegg bør man være oppmerksom på hvordan kryssvalidering fungerer når modellene er nestet i forhold til hverandre. Problemet oppstår fordi kryssvalidering benytter ut-av-prøve-observasjoner som ikke er en del av den opprinnelige modellen, og denne tilnærmingen ignorerer modellens forutsetninger. Dermed kan man oppleve høy varians i estimatene, noe som kan svekke påliteligheten av resultatene.

Det er viktig å merke seg at kryssvalidering er et nyttig verktøy, men man bør være oppmerksom på dens begrensninger, spesielt når modellene gir små eller svært like prediksjoner. Det er også avgjørende å forstå at valget av sannsynlighetsfordeling, og hvordan denne distribusjonen passer til dataene, kan ha stor innvirkning på modellens ytelse.