Modellen som beskrives her er et eksempel på en blandingsmodell for reaksjonstider (RT) som tar hensyn til både nøyaktighet og hastighet i et eksperiment. Den grunnleggende ideen bak modellen er å representere at et enkelt individ kan respondere på to måter: enten ved å være fullt engasjert i oppgaven eller ved å gjette. Denne tilnærmingen er nyttig for å forklare reaksjonstider under forhold med både enkle og vanskelige oppgaver, hvor de to atferdsmodusene – engasjert respons versus gjetting – kan påvirke de observerte reaksjonstidene.

Modellen som presenteres her starter med å anta at reaksjonstiden for et enkelt individ er log-normalt fordelt, hvor den logaritmiske transformasjonen av reaksjonstiden, rtnr_{tn}, er avhengig av oppgavens vanskelighetsgrad. For et individ som er engasjert i oppgaven, kan vi modellere reaksjonstiden som:

rtnLogNormal(α+βxn,σ)r_{tn} \sim \text{LogNormal}(\alpha + \beta \cdot x_n, \sigma)

Her representerer α\alpha den gjennomsnittlige logaritmisk transformerte reaksjonstiden, β\beta er effekten av oppgavens vanskelighetsgrad xnx_n, og σ\sigma er et støyparameter som fanger opp den tilfeldige variasjonen i reaksjonstidene. Hvis individet kun gjetter, vil reaksjonstiden være uavhengig av oppgavens vanskelighetsgrad, og vi kan modellere denne tilstanden som:

rtnLogNormal(γ,σ2)r_{tn} \sim \text{LogNormal}(\gamma, \sigma^2)

Her er γ\gamma den gjennomsnittlige logaritmisk transformerte reaksjonstiden når individet kun gjetter, og σ2\sigma^2 representerer støyparameteren for gjetteatferden.

En viktig del av modellen er sannsynligheten ptaskp_{\text{task}} for at et individ faktisk velger å delta aktivt i oppgaven i stedet for å gjette. Dette representeres av en binomisk fordelte variabel znz_n, som avgjør om en gitt reaksjonstid stammer fra en aktiv oppgave (der zn=1z_n = 1) eller fra et gjetningstilfelle (der zn=0z_n = 0):

znBernoulli(ptask)z_n \sim \text{Bernoulli}(p_{\text{task}})

Dermed kan den observerte reaksjonstiden for individet være en blanding av de to log-normalt fordelte distribusjonene, avhengig av om individet var engasjert i oppgaven eller gjettet:

rtn{LogNormal(α+βxn,σ),hviszn=1LogNormal(γ,σ2),hviszn=0r_{tn} \sim \begin{cases} \text{LogNormal}(\alpha + \beta \cdot x_n, \sigma), & \text{hvis} \, z_n = 1 \\ \text{LogNormal}(\gamma, \sigma^2), & \text{hvis} \, z_n = 0 \end{cases}

For å implementere modellen i et bayesiansk rammeverk, kreves det å definere passende priorer for modellens parametere. De valgte priorene er mer informative enn de som brukes i enklere modeller, men de er fortsatt regulerende i den forstand at de ikke dominerer dataene. Det er viktig å verifisere at priorene er realistiske ved hjelp av prediktive kontroller før modellen tilpasses de faktiske dataene. De priorene som brukes her er:

αNormal(6,1)\alpha \sim \text{Normal}(6, 1) βNormal(0,0.1)\beta \sim \text{Normal}(0, 0.1) σNormal+(0.5,0.2)\sigma \sim \text{Normal+}(0.5, 0.2) γNormal(6,1)\gamma \sim \text{Normal}(6, 1) σ2Normal+(0.5,0.2)\sigma^2 \sim \text{Normal+}(0.5, 0.2) ptaskBeta(1,1)p_{\text{task}} \sim \text{Beta}(1, 1)

Disse priorene reflekterer de antatte realistiske verdiene for parameterne basert på tidligere erfaringer fra eksperimenter som måler reaksjonstider. For å gjøre modellen funksjonell i praksis, genereres syntetiske data før man tilpasser modellen til reelle eksperimentelle data. Dette gir oss en mulighet til å kontrollere at modellen fungerer som forventet. For eksempel genereres data med forskjellige vanskelighetsnivåer for oppgavene (lett vs. vanskelig), og de ulike parametrene settes til realistiske verdier basert på tidligere erfaringer.

Når syntetiske data er generert, kan disse dataene brukes til å validere modellens egenskaper, som at reaksjonstidene i simuleringen ligger innenfor et realistisk område sammenlignet med originale eksperimentelle data. I denne sammenhengen gir visualiseringene av dataene – for eksempel ved hjelp av histogrammer – en viktig sjekk for å sikre at modellens antagelser er hensiktsmessige.

Den bayesianske tilpasningen av denne modellen kan gjøres ved å bruke et rammeverk som Stan, hvor parameterne kan estimeres og modellens ytelse kan verifiseres ved hjelp av konvergensdiagnostikk. Stan-modellen implementeres ved å definere parametrene og den bayesianske modellen i kode, hvor man spesifiserer priorene, sannsynlighetene og log-likelihood-funksjonen for de observerte reaksjonstidene.

En utfordring som kan oppstå under implementeringen er numerisk ustabilitet når man jobber med logaritmer av summer eller forskjeller, som kan føre til problemer med underflyt og overflow. Stan tilbyr funksjoner som log_sum_exp(x,y)\text{log\_sum\_exp}(x, y) og log1m(x)\text{log1m}(x) for å håndtere disse spesialtilfellene på en stabil måte, og sikre at modellberegningene forblir numerisk nøyaktige.

Denne modellen gir oss en dypere forståelse av hvordan individer balanserer hastighet og nøyaktighet i eksperimentelle oppgaver, og hvordan forskjellige atferdsmønstre, som å være engasjert i oppgaven eller å gjette, kan påvirke reaksjonstiden.

Det er viktig å forstå at denne modellen ikke nødvendigvis representerer enkle, deterministiske atferdsmønstre, men heller en kompleks samhandling av faktorer som påvirker hvordan individer responderer i forskjellige situasjoner. Modellen gir innsikt i hvordan eksperimentelle betingelser, som vanskelighetsgrad og individuelle forskjeller, kan skape variasjon i reaksjonstidene. Dette er spesielt relevant i kognitive eksperimenter der man ønsker å isolere effekten av spesifikke faktorer på responsmønstre, og modellere de underliggende prosessene som styrer beslutningstaking og reaksjoner.

Hvordan bestemme utvalgsstørrelse ved hjelp av Bayes-faktorer

Når man planlegger et eksperiment, er det ofte nødvendig å beregne hvor stort utvalg som kreves for å nå et bestemt Bayes-faktorterskel som kan gi tilstrekkelig bevis for en hypotese. Dette kan virke overraskende for de som benytter seg av Bayesiansk modellering, da en av de mange fordelene med denne tilnærmingen er at det ikke nødvendigvis kreves at utvalgsstørrelsen spesifiseres på forhånd. Bayesiansk modellering tillater fleksibilitet i eksperimentell planlegging, noe som betyr at forskeren kan utføre eksperimenter uten en forhåndsdefinert utvalgsstørrelse. Det er nok av eksempler på forskning hvor eksperimenter kjøres til en presisjonskriterium i den posteriore fordelingen er oppnådd. Denne tilnærmingen er den vi selv benytter, og den krever tilstrekkelig tid og finansielle ressurser for å oppnå de nødvendige nøyaktighetsnivåene. Imidlertid kan det finnes situasjoner der det er viktig å bestemme utvalgsstørrelsen på forhånd, spesielt når man søker om forskningsmidler eller planlegger kliniske forsøk, replikeringsstudier eller registrerte rapporter.

I slike tilfeller finnes det etablerte metoder for å beregne nødvendig utvalgsstørrelse på forhånd, selv når man benytter Bayesiansk analyse. Ett av de fremste forslagene kommer fra Wang og Gelfand (2002), som presenterer en prosedyre for å beregne utvalgsstørrelser ved bruk av Bayes-faktorer. Prosessen er enkel å implementere, og den gir et arbeidsforløp for å utføre utvalgsstørrelsesberegninger ved hjelp av komplekse hierarkiske modeller, som vi også diskuterer i denne boken.

Prosedyren innebærer flere trinn. Først må man bestemme hvilke effektstørrelser man ønsker å oppdage, og velge et kriterium som representerer en terskel for beslutningstaking – for eksempel en Bayes-faktor på 10, som er et klassisk mål for sterke bevis for en effekt. Deretter simulerer man prior predictive data for ulike utvalgsstørrelser, og for hvert tilfelle brukes informerte priors (kalt sampling priors). Etterpå tilpasses modellen de simulerte dataene ved bruk av regulariserende priors (fitting priors), og Bayes-faktoren beregnes ved hjelp av en nullmodell som antar ingen effekt for parameteren av interesse. Denne prosessen gjentas for flere ulike utvalgsstørrelser, og til slutt velges den størelsen som tilfredsstiller ønsket beslutningskriterium for en høy andel av simuleringene.

En viktig utfordring i dette arbeidet er hvordan Bayes-faktorene kan være sterkt følsomme for valg av priors. Dette gjelder ikke bare for parameterne som representerer effektene man er ute etter å undersøke, men også for andre parametere som for eksempel intercepten i modellen. Det er derfor avgjørende å utføre prior predictive checks for å validere valget av priors. Videre bør man alltid inkludere følsomhetsanalyser som undersøker hvordan Bayes-faktorene varierer under forskjellige priorantagelser. Dette bør være en standard prosedyre i alle analyser som benytter Bayes-faktorer.

En annen viktig faktor er at Bayes-faktorer kan variere betydelig avhengig av dataene som benyttes. I kognitiv vitenskap er dataene ofte ustabile, selv for relativt robuste effekter, på grunn av små effektstørrelser og begrenset utvalgsstørrelse. Dette betyr at Bayes-faktorer kan variere kraftig på tvers av forskjellige datasett som undersøker samme fenomen. Derfor er det kun gjennom store effektstørrelser, store utvalg eller repeterte studier at man kan stole på konklusjonene fra empiriske data i kognitiv vitenskap.

En annen relevant problemstilling som ikke ble behandlet i detalj i denne sammenhengen, er dataggregering. I analyser med gjentatte målinger kan Bayes-faktor-analyser utføres direkte på rådataene uten aggregering ved hjelp av Bayesianske hierarkiske modeller. Alternativt kan man aggregere dataene ved å ta gjennomsnittet per deltaker og betingelse, og deretter utføre analysene på de aggregerte dataene. Imidlertid kan aggregerte analyser føre til skjeve resultater når det enten er item-variasjon i tillegg til deltaker-variasjon, eller når antagelsen om sfærisitet (som ligger til grunn for gjentatte målinger ANOVA) brytes. I slike tilfeller bør man unngå aggregerte analyser, og heller bruke ikke-aggregert data som gir mer robuste og nøyaktige estimater av Bayes-faktorene.

I tillegg til de nevnte problemene er det viktig å understreke nødvendigheten av å utføre flere analyser for å sikre at resultatene er stabile. Spesielt når man benytter metoder som broprøvetesting, bør resultatene kontrolleres ved flere uavhengige kjøringer for å sikre stabilitet. Broprøvetesting gir ingen sterke garantier for nøyaktighet, og derfor bør man benytte simuleringsbasert kalibrering for å evaluere nøyaktigheten av Bayes-faktorene. For kognitiv forskning, hvor datainnsamlingen ofte innebærer små eller vanskelige effekter, er det avgjørende å være forsiktig når man trekker konklusjoner basert på Bayes-faktorer, og å alltid vurdere usikkerheten som ligger i resultatene.