Modellen som benyttes i analysen av responstid og valg er basert på en log-normal løpsmodell, som forsøker å simulere hvordan valgprosesser skjer over tid. Denne modellen er enkel, men likevel kompleks nok til å kreve grundig analyse for å forstå dens egenskaper og begrensninger. I denne artikkelen tar vi for oss hvordan man kan bruke kvantil sannsynlighetsplot til å vurdere modellens presisjon, spesielt når det gjelder å skille mellom raskere og langsommere feil, og hvordan ulike varianter av denne modellen kan håndtere slike feil.

I analysen starter vi med et dataramme som inkluderer flere variabler, som subjekt-ID, lexikalitet (ord eller ikke-ord), frekvensen av ordene, responstid (RT), og valg (nchoice). En grunnleggende oppgave i databehandlingen er å organisere og sammenkoble informasjon fra ulike datakilder for å lage et sammenhengende datasett. Et eksempel på dette kan sees i koden hvor data om responstid og valg blir slått sammen, og hvor man legger til en ny variabel som angir hvor riktig et valg var (akkurat eller feil).

Når modellene er bygget, kan kvantil sannsynlighetsplot benyttes til å visualisere forskjellene mellom de simulerte dataene og de observerte. Dette gir en mulighet til å vurdere om modellen er i stand til å forutsi både responstid og valg på en realistisk måte. I figuren som presenteres, ser man på kvantiler som viser fordelingen av responstiden i forhold til andelen korrekte og feilaktige svar. Dette er en måte å analysere hvordan modellen håndterer forskjellige hastigheter i feilene – spesielt hurtige feil som modellen kan ha problemer med å forklare nøyaktig.

En av de største utfordringene med den log-normale løpsmodellen er at den har vanskeligheter med å fange opp raske feil. Når det er en lav sannsynlighet for et valg, er det ofte forbundet med høyere responstider, noe som gjør at modellen ikke nødvendigvis klarer å fange opp de raske feilene som oppstår når det er en sterk initial skjevhet mot et feilvalg. Det er derfor viktig å forstå at mens den log-normale modellen kan gi gode resultater for mer standardiserte feil, trenger mer komplekse modeller som den lineære ballistiske akkumulatoren (LBA) eller drift-diffusjonsmodellen (DDM) for å håndtere disse utfordringene.

Videre kan man bruke en blandingsmodell, som er et tillegg til den grunnleggende modellen, for å håndtere såkalte kontaminerte svar – det vil si svar som er utløst av forstyrrelser eller unøyaktigheter i datainnsamlingen. Dette kan være svar som ikke nødvendigvis gjenspeiler den sanne beslutningsprosessen, men heller skyldes ytre faktorer som stress eller distraksjoner under eksperimentet.

En annen viktig del av analysen er gruppedelingen basert på ordfrekvens, hvor ordene blir delt inn i kvantiler (0-0.2, 0.2-0.4 osv.) for å analysere hvordan frekvensen av ord påvirker responstidene og valgene. Denne analysen gjør det mulig å vurdere hvordan modellen fungerer på ulike sett av data – for eksempel hvordan lave versus høye frekvenser av ord påvirker tidene for valg og responser.

Når du ser på kvantil sannsynlighetsplottene, vil du merke at det ofte er en mismatch mellom de observerte dataene og de simulerte dataene. Dette kan være et tegn på at modellen ikke fanger opp alle variablene som påvirker beslutningsprosessen, som for eksempel de nevnte raske feilene. Sammenlignet med andre sekvensielle modelleringsteknikker, er dette en svakhet ved den log-normale modellen, som kan bli rettet opp i mer avanserte tilnærminger.

For å forbedre denne typen modell, kan det være nyttig å vurdere hvordan endringer i skalafaktorene for den feilaktige valgakkumulatoren sammenlignes med skalafaktorene for den korrekte valgakkumulatoren. Dette kan bidra til å skape en mer realistisk fordeling av beslutningsprosesser i tilfeller der feil oppstår raskt.

Det er også viktig å merke seg at mange av de teknikkene som benyttes i denne modellen, som for eksempel å inkludere en forskyvning i distribusjonen, blandingsfordelinger for å håndtere kontaminerte svar, og kvantil sannsynlighetsplotter, kan anvendes på nesten hvilken som helst type modell som estimerer responstider og valg. Selv om en slik modell kan være tidkrevende å tilpasse, er det essensielt å bruke disse verktøyene for å evaluere nøyaktigheten og robustheten til resultatene.

Det er avgjørende for den videre utviklingen av slike modeller å være klar over de potensielle feilene som kan oppstå når man arbeider med forenklede tilnærminger. For å bedre forstå hvordan disse feilene kan håndteres, bør forskeren være villig til å teste alternative modeller og være oppmerksom på hvordan ulike dataorganiseringer og modelltilpasninger kan påvirke resultatene. Ved å gjøre dette, kan man få en mer presis forståelse av de underliggende beslutningsprosesser som påvirker responstiden og valget, og dermed forbedre modellens prediksjonsevne.

Hvordan påvirker størrelse på hukommelsessettet fri tilbakekalling? En undersøkelse med logistisk regresjon

I denne delen skal vi utforske hvordan prinsippene vi har lært om regresjonsmodeller kan utvides til generaliserte lineære modeller (GLM), med et særlig fokus på logistisk regresjon. Som et eksempel bruker vi et datasett fra en studie som undersøker kapasiteten til arbeidsminnet. Dataene stammer fra et delsett av et datasett utviklet av Oberauer (2019), hvor hver deltaker ble presentert for ordlister med ulike lengder (2, 4, 6, og 8 elementer) og deretter ble bedt om å tilbakekalle et ord gitt dets posisjon i listen.

Det er godt etablert at jo flere elementer som skal holdes i arbeidsminnet, desto dårligere blir tilbakekallingen (se Oberauer og Kliegl 2001, blant andre). I denne analysen ser vi på data fra én enkelt deltaker, og vi undersøker hvordan antall elementer i settet påvirker nøyaktigheten av tilbakekallingen.

Modellen vi skal bruke er basert på Bernoulli-likelihood, som genererer et svar på 0 eller 1 med en gitt sannsynlighet 𝜃. Dette kan modelleres som følger:

correctnBernoulli(θn)\text{correct}_n \sim \text{Bernoulli}(\theta_n)

hvor 𝜃𝑛 er sannsynligheten for å tilbakekalle korrekt i observasjon n. Ettersom dataene vi observerer er enten 0 eller 1, kan vi ikke bruke en vanlig lineær regresjon, da dette ville anta at de observerte dataene er kontinuerlige verdier som kan variere fra -∞ til +∞ (eller fra 0 til +∞). Generaliserte lineære modeller (GLM) løser dette problemet ved å bruke en koblingsfunksjon 𝑔(⋅) som knytter den lineære modellen til den estimerte mengden (i dette tilfellet sannsynligheten 𝜃𝑛). For binære utfall som 0 og 1, benyttes logit-koblingen, som er definert som:

ηn=log(θn1θn)\eta_n = \log \left(\frac{\theta_n}{1 - \theta_n}\right)

Denne koblingen lar oss bruke en lineær modell på log-odds, som ligger mellom -∞ og +∞. Den inverse funksjonen til logit-funksjonen er den logistiske funksjonen, som gir oss sannsynligheten 𝜃𝑛 når vi har estimerte log-odds 𝜂𝑛:

θn=11+exp(ηn)\theta_n = \frac{1}{1 + \exp(-\eta_n)}

Modellen vi bruker for å beskrive sammenhengen mellom størrelsen på hukommelsessettet og sannsynligheten for korrekt tilbakekalling blir dermed:

ηn=α+βcset_size\eta_n = \alpha + \beta \cdot c_{\text{set\_size}}

hvor 𝛼 er skjæringspunktet (interceptet), og 𝛽 er koeffisienten for hukommelsessettstørrelsen. Vi beregner så den inverse logit-funksjonen for å få sannsynligheten for korrekt tilbakekalling. Ved å bruke den sentrerte variabelen for settstørrelse, kan vi tolke 𝛼 som log-odds for korrekt tilbakekalling når settstørrelsen er på sitt gjennomsnitt (i dette tilfellet størrelse 5, som er et sentrert gjennomsnitt).

Ved valg av priorer for 𝛼 og 𝛽 må vi ta hensyn til at disse parameterne ikke representerer sannsynligheter eller proporsjoner, men log-odds. Dette er viktig fordi forholdet mellom log-odds og sannsynligheter ikke er lineært. Det er også viktig å merke seg at når vi sentrerer prediktoren, representerer 𝛼 log-odds for å huske et ord i en tilfeldig posisjon i et gjennomsnittlig sett på fem elementer. Hvis vi derimot ikke sentrerer settstørrelsen, vil 𝛼 representere log-odds for å huske et ord i et sett med null elementer, noe som ikke gir mening i konteksten av hukommelsestester.

En annen viktig faktor er valg av priorer. For å bestemme passende priorer for 𝛼 og 𝛽, bør vi vurdere vanskelighetsgraden i tilbakekallingsoppgaven. Hvis oppgaven er svært vanskelig, kan vi anta at sannsynligheten for korrekt tilbakekalling vil være lav ved små settstørrelser. På den annen side, hvis oppgaven er lettere, kan sannsynligheten for korrekt tilbakekalling være høyere selv for større settstørrelser.

Ved å bruke Bayesian regresjonsmodeller kan vi undersøke hvordan hukommelsens kapasitet påvirkes av antall ord som skal huskes. Siden hukommelsen er en kompleks kognitiv prosess, er det viktig å vurdere ikke bare statistiske sammenhenger, men også de underliggende psykologische faktorene som kan påvirke disse resultatene.

I tillegg til det vi har diskutert, er det viktig å vurdere andre faktorer som kan påvirke hukommelsens effektivitet, som individuelle forskjeller i kognitiv kapasitet og erfaring, samt hvordan ulike typer informasjon lagres og hentes i arbeidsminnet. For å få en mer nyansert forståelse, kan det være nyttig å se på hvordan forskjellige testdesign og presentasjon av informasjon påvirker tilbakekallingsnøyaktigheten. De eksperimentelle forholdene, som tidspress, distraksjoner eller stress, kan også spille en betydelig rolle i hvordan minnet fungerer i praksis.

Hvordan velge de beste kontrastene i statistiske modeller?

Valget av kontraster i statistiske modeller kan ha stor betydning for tolkningen av resultater, spesielt når vi står overfor komplekse data der ulike faktorer samspiller. I denne sammenhengen er det viktig å forstå hvordan kontraster fungerer og hvilke kriterier som gjør dem gode. Kontraster representerer lineære sammenligninger mellom nivåene av en faktor, og deres valg kan påvirke resultatene i både klassiske og bayesianske tilnærminger. En grundig forståelse av kontraster, spesielt når man velger mellom polynomiske kontraster og monotone effekter, er avgjørende for å trekke riktige konklusjoner fra dataene.

Polynomiske kontraster og monotone effekter representerer to forskjellige måter å modellere forholdet mellom faktorene på. Når vi benytter polynomiske kontraster, tvinger modellen effektene til å følge en spesifikk, men fleksibel kurve. På den andre siden antar monotone effekter at forholdet mellom nivåene er i økende eller avtakende rekkefølge, uavhengig av dataene, som illustrert i figur 6.3. Dette kan føre til at monotone modeller feilaktig antar at negative forskjeller mellom nivåer er tilfeldige, selv når de kan ha reell betydning. Det er viktig å merke seg at valg av modelltype bør reflektere både dataenes struktur og formålet med analysen.

For å estimere effekten av en faktor med flere nivåer, kan det defineres et sett av kontraster som gir lineært uavhengige sammenligninger. Et grunnleggende prinsipp her er at antall uavhengige sammenligninger er begrenset til nivåene minus én, dvs. for en faktor med tre nivåer kan man utføre maksimalt to uavhengige sammenligninger. Dette har betydning for hvordan vi tolker resultatene og hvilke konklusjoner vi kan trekke fra analysen. Det er også viktig å sikre at kontrastene ikke er kollineære – de må representere uavhengige sammenligninger for at modellen skal gi pålitelige resultater. For eksempel, dersom én kontrast kan beregnes som en lineær kombinasjon av en annen, kan de ikke benyttes samtidig i modellen.

Når vi vurderer hva som gjør en god kontrast, er det flere kriterier som bør tas i betraktning. En viktig egenskap ved gode kontraster er at de er ortogonale, som betyr at de er uavhengige av hverandre. Dette kan verifiseres ved å beregne korrelasjonen mellom kontrastene, hvor en korrelasjon på 0 indikerer ortogonalitet. Ortogonale kontraster estimerer separate effekter og påvirkes ikke av tilstedeværelsen av andre kontraster. Dette er en fordel i modeller, ettersom det tillater uavhengig estimering av effektene til hver kontrast. I praksis er det nødvendig å definere kontraster som nøyaktig svarer på forskningsspørsmålene og som er godt tilpasset forskningsdesignet. I en bayesiansk kontekst er det også viktig å vurdere skaleringsfaktoren for kontrastene, særlig når man definerer priors. Skalaen for kontrastene må være tilpasset for å gi meningsfulle posterior-tolkninger.

Når kontraster er sentrert, betyr det at de enkelte kontrastkoeffisientene summerer til null. Dette er nyttig når man estimerer samspill mellom faktorer eller mellom faktorer og kovariater, da det bidrar til en mer presis forståelse av interaksjonene. For eksempel, når man bruker behandlingskontraster (treatment contrasts), summerer ikke kontrastkoeffisientene til null, noe som kan ha betydning for hvordan vi tolker effekten av behandlingen på forskjellige nivåer.

En annen viktig type kontrast er ortogonale kontraster, der de to kontrastene er uavhengige og deres indre produkt er null. Dette betyr at de estimerer separate effekter som ikke overlapper, og det gjør beregningene mer presise. Når vi arbeider med slike kontraster i bayesianske modeller, er det spesielt viktig å bruke generaliserte matriseinversjoner, da dette tillater uavhengig skalerte kontraster og gir en nøyaktig tolkning av resultatene.

Selv om dette kan virke teknisk, er det avgjørende å forstå hvordan kontraster påvirker modellens presisjon og pålitelighet. Å bruke riktige kontraster, enten det er polynomiske eller monotone effekter, kan være forskjellen på en korrekt eller feilaktig tolkning av dataene. Modellens evne til å fange kompleksiteten i dataene og samtidig opprettholde enkelheten i analysen er et resultat av hvordan kontrastene er valgt og definert.

Det er også viktig å merke seg at valg av kontraster kan påvirke evalueringen av modellen gjennom posterior predictive checks. For eksempel kan monotone effekter føre til en modell som ikke fanger opp ikke-monotone forhold i dataene, som vist i figur 6.4, hvor den antatte negative forskjellen mellom nivåene 𝐹 2 og 𝐹 3 ikke kan anses som tilfeldig, som modellen skulle anta.

Hvordan implementeres hierarkiske modeller og egendefinerte fordelinger i Stan?

Hierarkiske modeller er fundamentale for å analysere data som er organisert i flere nivåer, som for eksempel målinger innenfor både forsøkspersoner og eksperimentelle enheter (items). I Stan kan hierarkiske modeller formuleres med stor fleksibilitet, noe som går langt utover det som er tilgjengelig i mer automatiserte pakker som brms. Denne fleksibiliteten gjør det mulig å modellere komplekse avhengigheter og korrelasjoner mellom variasjonskomponenter i dataene.

En sentral komponent i hierarkiske modeller er parameteriseringen av variasjonsparametere. Stan tilbyr avanserte metoder som ikke-sentrert parameterisering og Cholesky-faktorisering for å øke effektiviteten ved sampling. Ikke-sentrert parameterisering omformer variabler for å redusere sterk korrelasjon i posteriorfordelingen, noe som kan forbedre konvergensen betydelig. Cholesky-faktoriseringen av korrelasjonsmatriser tillater parametrisering av fullstendige kovariansstrukturer mellom random effekter, noe som gir mer realistiske og informative modeller.

I eksempelet med et hierarkisk modelloppsett for responssignaler (f.eks. EEG-data) defineres random effekter både for subjekt og item, inkludert deres standardavvik og korrelasjonsmatriser. Posteriorene for korrelasjonsparametere (rho_u og rho_w) viser ofte stor usikkerhet ved sparsomme data, noe som understreker viktigheten av tilstrekkelig datamengde for å kunne trekke sikre slutninger om slike strukturer.

Modellen inneholder også hyperparametere for skjevheter (alpha, beta), og residual standardavvik (sigma), alle gitt brede, svake informative priors for å balansere mellom fleksibilitet og identifiserbarhet. Ved å legge inn data som lister og faktorer, kan modellen enkelt tilpasses ulike datasett med variabelt antall observasjoner, subjekter og items.

En annen viktig dimensjon av Stan er muligheten til å spesifisere egendefinerte fordelinger. Dette er særlig relevant når standardfordelinger ikke egner seg, eller når en teoretisk motivert transformasjon av data krever en spesifikk fordeling. Et eksempel er reciprocal-normal-fordelingen, hvor vi antar at den inverse av respons-tidene følger en normalfordeling. Denne transformasjonen kan gi tolkninger i form av hastighet fremfor tid, og kan stabilisere variansen i responsdata.

Den reciprocal-normal-fordelingen kan formelt uttrykkes som 1/yNormal(μ,σ)1/y \sim Normal(\mu, \sigma), hvor yy er respons-tiden. Denne tilnærmingen kan også forstås som et spesialtilfelle av Box-Cox transformasjonen, og den skaper høyreskjev fordelingsform som ofte observeres i responstiddata.

Implementering av denne fordelingen i Stan er enkel ved å modellere de inverse respons-tidene som en normalfordelt variabel med ukjente parametere μ\mu og σ\sigma. Dette gjør det mulig å integrere den i hierarkiske modeller eller andre komplekse rammeverk.

I praktisk anvendelse er det avgjørende å forstå at parametrene μ\mu og σ\sigma refererer til skalaen på den transformerede variabelen, ikke den opprinnelige respons-tiden. Derfor må tolkningen av parameterne tilpasses dette perspektivet, spesielt når resultater skal kommuniseres.

Når data er sparsomme, er det viktig å merke seg at posteriorfordelinger for kompleksiserte parametere, som korrelasjoner mellom random effekter, ofte vil være svært usikre og brede. Dette betyr at resultatene i slike tilfeller i stor grad reflekterer de priorer som er satt, og at sterke konklusjoner ikke bør trekkes uten tilstrekkelig datagrunnlag.

Bruken av hierarkiske modeller i Stan gir et kraftfullt verktøy for kognitiv vitenskap, psykologi og lingvistikk, spesielt når man skal modellere individuelle variasjoner og strukturer i data som ikke lar seg fange av enklere modeller. Evnen til å kode fullstendige modeller med fleksible fordelinger, herunder egendefinerte som reciprocal-normal, åpner for presis og teoretisk velbegrunnet statistisk analyse.

Det er vesentlig å integrere forståelsen av hvordan parametriseringen påvirker inferensen og å være bevisst på modellens antakelser og begrensninger. Effektiv modellering krever også god kunnskap om hvilke transformasjoner som gir meningsfulle tolkninger av parametere og hvordan disse kan knyttes til de underliggende psykologiske eller fysiologiske prosessene som studeres.