For å forstå hvorfor økonometriske modeller kan være problematiske når de benytter least-squares estimater, er det viktig å først forstå hva som menes med kausalitet og hvordan den skiller seg fra ren assosiasjon. I tradisjonell økonometrisk praksis er det en tendens til å forveksle årsakssammenheng med statistisk assosiasjon, noe som kan føre til feilaktige tolkninger av modellresultater.

Når man jobber med økonometriske modeller som Yt=β0+β1Xt+ϵtY_t = \beta_0 + \beta_1 X_t + \epsilon_t, er det viktig å merke seg at det ikke nødvendigvis er snakk om en årsak-virkning-relasjon mellom XX og YY, til tross for at modellen kan indikere en korrelasjon. I denne spesifikasjonen representerer ϵt\epsilon_t den delen av YtY_t som ikke kan tilskrives XtX_t, og modellens koeffisient β1\beta_1 er kun meningsfull hvis man antar at XtX_t faktisk forårsaker YtY_t. Dersom YY forårsaker XX i stedet, vil en annen modellform være nødvendig, og koeffisientene fra den første modellen vil ikke være konsistente med de fra den alternative spesifikasjonen.

Det er dette skillet mellom kausalitet og assosiasjon som er fundamentalt i årsaksanalyse. Kausalitet innebærer at det finnes en reell effekt der endringer i XX faktisk fører til endringer i YY, mens assosiasjon kun viser at de to variablene beveger seg sammen uten nødvendigvis å ha en årsak-virkning-forbindelse. Den vanlige økonometriske metoden som benytter least-squares estimater, antar implicit at XX har en kausal effekt på YY, og at forstyrrelsene (feilene) i modellen ϵt\epsilon_t er uavhengige av XX. Dette er kjent som exogenitetsbetingelsen, som forutsetter at E[ϵX]=0E[\epsilon | X] = 0. Dersom denne betingelsen ikke er oppfylt, kan estimatene være skjeve og ikke reflektere den sanne kausaliteten.

For å unngå feiltolkning av slike modeller, introduseres begrepet instrumentelle variabler. En instrumentell variabel, WW, kan brukes til å isolere den kausale effekten av XXYY under spesifikke betingelser. For at WW skal være et gyldig instrument, må det oppfylle tre betingelser: først må det være relatert til XX (det må finnes en pil WXW \to X); deretter må effekten av WWYY være fullt formidlet gjennom XX; og til slutt må det ikke finnes noen tilbakekoblingsveier (backdoor paths) mellom WW og YY, som kunne introdusere skjevhet. Dette er en måte å kvitte seg med konfounding på, og skape et rent mål for den kausale effekten.

I tradisjonell økonometrisk litteratur kan det være vanskelig å skille mellom slike begreper, og ofte benytter man metoder som «stepwise»-algoritmer eller «trial and error»-modeller som søker den beste spesifikasjonen uten nødvendigvis å ta hensyn til den kausale strukturen. Dette kan føre til dårlige estimater av den virkelige årsakssammenhengen. Videre er økonometrikere ofte ikke trent i bruk av avanserte verktøy som kausal kalkulus, Bayesian-nettverk eller eksperimentelle design, som kan gi mer presise og pålitelige resultater.

Et annet sentralt poeng er forståelsen av koeffisienten β\beta i least-squares metoden. Den er bare meningsfull dersom betingelsen om exogenitet er oppfylt, det vil si at feiltermene er uavhengige av forklaringsvariablene. Hvis denne betingelsen er brutt, vil estimatet av β\beta ikke være et presist mål for den kausale effekten, men heller et mål for den statistiske assosiasjonen. Økonometrikere må derfor være svært oppmerksomme på om deres modeller faktisk reflekterer en kausal effekt, eller om de kun beskriver sammenhenger som er tilfeldige eller spuriøse.

En annen utfordring som oppstår i økonometriske analyser, er hvordan man håndterer ukjente variabler som kan påvirke både XX og YY. Hvis det finnes en skjult felles årsak, representert ved en latent variabel ZZ, kan det oppstå en tilbakekoblingsvei mellom XX og YY, som gjør det umulig å trekke pålitelige kausale slutninger uten å ta hensyn til denne variabelen. I slike tilfeller kan det være nødvendig å bruke metoder som instrumentelle variabler eller den mer generelle do-kalkulusen for å bryte tilbakekoblingsveien og isolere den egentlige årsakeffekten.

Det er viktig at leseren forstår at økonometriske metoder som least-squares estimering ikke nødvendigvis gir et presist mål for kausalitet, men kan være nyttige verktøy dersom de benyttes riktig, med en klar forståelse av de underliggende kausale forholdene. Riktig spesifikasjon av modellen og en grundig vurdering av potensielle skjulte variabler og tilbakekoblingsveier er avgjørende for å få pålitelige estimater som reflekterer virkelige kausale relasjoner.

Hvordan håndtere kausalitet i investeringsteorier: En forståelse av MOM, HML og PC

I kvantitativ finans og investeringsforskning er det viktig å skille mellom assosiasjonelle og kausale forhold. Assosiasjonelle investeringsteorier kan vise hvordan ulike faktorer er relatert, men de gir ikke nødvendigvis innsikt i årsakene bak fenomenene. Kausal investeringsforskning, derimot, tar for seg spørsmål om hvordan en variabel direkte påvirker en annen, og innebærer å identifisere de underliggende mekanismene som driver investeringsresultater.

Når man analyserer effekten av høy momentum (MOM) på fremtidige aksjepriser, er det klart at MOM kan påvirke pris-konvergens (PC) på en måte som forsinker denne prosessen. Denne forsinkelsen oppstår fordi investorer, som er klar over at MOM kan føre til ytterligere prisbevegelser, er tilbakeholdne med å satse på at verdien av aksjer vil konvergere for tidlig. Dette gir et nytt perspektiv på hvordan faktorer som HML (høy verdiaktier) kan være avhengige av tidsfaktorer og eksterne påminnelser om hvordan markedet reagerer på momentum.

MOM, som er observerbar, kan derfor fungere som en forstyrrende faktor (confounder) i analyser av HML, ettersom det potensielt kan blokkere den direkte kausale banen fra HML til PC. Den beste måten å håndtere dette på er gjennom en bakdørjustering, som innebærer at man justerer for MOM i analysen for å eliminere eventuelle forvrengninger som kan oppstå. Dersom MOM ikke er observerbar, kan en frontdørjustering være mulig, med hjelp fra en mediator som OI (Open Interest).

For å konkretisere dette kausale forholdet, kan man uttrykke det gjennom et system av strukturelle ligninger som beskriver hvordan variabler som HML, OI, og PC er relatert til hverandre. Ved å bruke verktøy for kausal oppdagelse på et representativt datasett kan man finne den underliggende kausale strukturen som er i samsvar med den teoretiske prosessen som er foreslått.

En viktig del av forskningen ligger i å kontrollere for andre faktorer som kan påvirke de kausale forholdene. Et spørsmål som kan oppstå er hvorfor ikke også faktorer som bud-ask spread (BAS) og markedslikviditet (LIQ) blir tatt med i modellen. Kritikerne kan påpeke at OI ikke er direkte observerbart, og at beregningene kan være skjeve dersom passive investorer skjuler sine intensjoner ved å legge inn passive ordrer. Dette kan føre til at en analyse av OI kan feiltolkes som om det er salg-initierte handler, selv om de faktisk stammer fra en kjøper som skjuler sine intensjoner.

I dette tilfellet er BAS et viktig kollidert element. Kontroll for BAS kan åpne opp for en ikke-kausal sti gjennom assosiasjon mellom HML, OI, BAS og PC. Det betyr at det ikke nødvendigvis er hensiktsmessig å kontrollere for BAS, LIQ eller VOL, da dette kan føre til feilaktige konklusjoner. Forskerne må derfor være klare i sine antagelser og være åpne for utfordringer fra andre forskere som kan forsøke å falsifisere de kausale påstandene gjennom eksperimenter.

En viktig del av forskningen er å være åpen for falsifisering, noe som kan være utfordrende når det gjelder finansmodeller. Mens tradisjonelle investeringsartikler ofte begrenser seg til å teste tilbakeholdte data eller strukturelle brudd, gir en kausal tilnærming en mer robust ramme for å teste og utfordre antagelser. For eksempel kan en naturlig eksperimentell design brukes til å teste om HML virkelig har en kausal effekt på OI, eller om effekten av OI på PC kan observeres under kontrollerte forhold. Ved å bruke alternative datasett kan forskeren teste hypotesene på en mer dynamisk måte, som vil fremme utviklingen av mer pålitelige teorier om investeringer.

I motsetning til assosiasjonelle strategier, som ofte er begrenset til å analysere distribusjonelle egenskaper som stasjonaritet, normalitet eller uavhengighet, gir kausale investeringsteorier et mer nyansert bilde av hvordan markedet fungerer. Kausal teori krever sterkere empirisk bevisføring, som innebærer at forskeren ikke bare gir hypoteser, men også presenterer klare, testbare mekanismer og offentliggjør sine kausale antagelser på en strukturert måte.

Investorer og forskere som benytter seg av kausale modeller for faktorinvestering, må derfor være villige til å justere for viktige forstyrrende faktorer som MOM, BAS, LIQ og VOL. Selv om disse faktorene kan ha en betydelig effekt på aksjepriser og markedstrender, kan de også åpne for feilaktige kausale antagelser hvis de ikke håndteres riktig. Det er denne grundigheten og åpenheten for utfordring som gjør kausale modeller til et kraftig verktøy i kvantitativ finansforskning.

Hvordan unngå feiltolkning av årsakssammenhenger i økonometriske analyser?

I økonometriske analyser er det et velkjent problem at observasjoner ofte kan føre til feilaktige konklusjoner om årsakssammenhenger. En spesiell utfordring oppstår når man observerer en ikke-kausal sammenheng mellom to uavhengige variabler, som følge av kondisjonering på en collider (Pearl, 2009, s. 17). Dette er et problem fordi retningen på årsakssammenhengen ikke alltid kan bestemmes utelukkende ved observasjonsstudier (Peters et al., 2017, s. 44–45). Å løse konflikten mellom konfunderende faktorer og kollidere kan ofte kreve informasjon som går utover statistiske metoder, som for eksempel ekstra-statistiske antakelser. Causal graphs – kausale grafer – gir nettopp den nødvendige ekstra-informasjonen, ved å gjøre eksplisitte antakelser som utfyller den informasjonen som kommer fra observasjoner.

I mange økonometriske undersøkelser vil man høre mantraet “data taler for seg selv”. Dette er imidlertid misvisende. To økonometrikere som kun baserer seg på observasjonsdata kan ende opp med å trekke motstridende konklusjoner etter å ha analysert de samme dataene. Dette kan oppstå dersom forskeren ikke tar hensyn til kolliderende faktorer som kan føre til spuriøse sammenhenger. En forsiktig valg av kollidere kan gjøre det mulig for forskeren å presentere bevis som støtter hvilken som helst type B-spuriøs investering.

Den riktige måten å håndtere en collider på er å indikere dens tilstedeværelse og forklare hvorfor forskeren ikke bør kontrollere for den. Et viktig poeng er at forskere må forklare og rettferdiggjøre den hypotetiske kausale grafen som støtter modellspesifikasjonen de har valgt, eller ellers underkaste seg den sunne skepsisen til sine kolleger.

En numerisk eksperiment kan illustrere dette. Først trekkes 5000 observasjoner fra den gitte datagenereringsprosessen. Deretter tilpasses den lineære ligningen Yt=α+βXt+γZt+εtY_t = \alpha + \beta X_t + \gamma Z_t + \varepsilon_t på de 5000 observasjonene. Resultatene av minste kvadraters estimat kan observeres. Ifølge økonometrisk standard vil en forsker konkludere med at β^\hat{\beta} er statistisk signifikant. Denne påstanden er en B-spuriøs feil, fordi YY ikke er en funksjon av XX, som modellens spesifikasjon antyder. Dette skyldes at kontrollen av en collider (i dette tilfellet ZZ) fører til en skjevhet.

Ved å ekskludere ZZ fra modellens spesifikasjon og bruke Yt=α+βXt+εtY_t = \alpha + \beta X_t + \varepsilon_t kan forskeren fjerne denne skjevheten. Resultatet av denne justeringen kan ses i et annet diagram. Med den riktige modellspesifikasjonen vil forskeren konkludere med at XX ikke forårsaker YY.

Når man vurderer mediatorkjeder, er det viktig å merke seg hvordan variabler kan formidle den kausale effekten fra en variabel til en annen. Hvis XX forårsaker YY via en mediator ZZ, som vist i en enkel kausal graf, vil XX og YY kun være assosiert gjennom den kausale banen formidlet av ZZ. Dette er et eksempel på en kausal sammenheng via en mediator. Hvis man kontrollerer for ZZ, kan man oppnå betinget uavhengighet mellom XX og YY, som følge av simulerte do-operasjoner (intervensjoner).

Problemet med å kondisjonere på en mediator er at dette kan forstyrre den kausale sammenhengen som forskeren forsøker å estimere, noe som kan føre til en falsk negativ. Å kontrollere for en mediator kan også føre til en falsk positiv. Dette fenomenet, som kalles mediatorkontradiksjon eller mediatjonsfeil, skjer når man kontrollerer for en mediator som er konfundert av en annen variabel. Dette kan føre til en feiltolkning av forholdet mellom XX og YY, som vist i et numerisk eksperiment. Når man trekker 5000 observasjoner og passer på en lineær modell med mediator ZZ, kan forskeren observere at den estimerte β\beta-verdien er signifikant, selv om det ikke finnes noen kausal sammenheng gjennom den ønskede banen.

Dette kan forklares ved at ZZ fungerer både som en mediator for XX og YY, men også som en collider i forhold til en annen variabel WW, som introduserer en skjult tilbakeveis vei som påvirker resultatene. Kontrollere for ZZ i dette tilfellet åpner en bakdør, som kan føre til feilaktige konklusjoner. Dette fenomenet, kjent som Simpsons paradoks, oppstår når en sammenheng mellom variabler vises i forskjellige grupper av data, men forsvinner eller endres når gruppene kombineres.

Ved hjelp av do-kalkulus kan forskeren estimere effekten av XXYY i denne kausale grafen uten å kontrollere for de ekstra variablene. Å kontrollere for WW er ikke strengt nødvendig for å eliminere skjevheten, men kan bidra til å forbedre presisjonen i estimatene. Den riktige modellen som gir et upåvirket estimat av β\beta er den enklere spesifikasjonen Yt=α+βXt+εtY_t = \alpha + \beta X_t + \varepsilon_t. Resultatene her viser en betydelig reduksjon i modellens forklaringskraft, noe som illustrerer hvorfor feil modellspesifikasjon kan lede til misvisende konklusjoner.

Det er avgjørende å forstå at feilaktige modellspesifikasjoner, som ofte oppstår ved en ukritisk behandling av kolliderende eller medierende variabler, kan føre til alvorlige feiltolkninger i økonometriske analyser. Å ha en klar og transparent kausal graf som støtter valget av modellspesifikasjon er essensielt for å unngå de mest vanlige feilslutningene som kan oppstå i kvantitative analyser. Dette gjelder ikke bare for økonometriske forskere, men også for investorer og beslutningstakere som benytter slike analyser for å fatte informerte beslutninger.

Hvordan Do-Kalkulus og Kausale Justeringer Påvirker Causale Estimater i Økonomisk Forskning

Do-kalkulus er et fullstendig aksiomatisk system som tillater forskere å estimere do-operatører ved hjelp av betingede sannsynligheter, hvor nødvendige og tilstrekkelige betingelsesvariabler kan bestemmes med hjelp av den kausale grafen (Shpitser og Pearl 2006). Dette konseptet er sentralt for å forstå hvordan variabler interagerer i et kausalt system, og det gir forskere verktøy for å isolere relevante variabler som kan bidra til å identifisere kausale forhold i økonomiske eller finansielle modeller.

En av de grunnleggende ideene i do-kalkulus er begrepet blokkering av stier. I en graf med tre variabler XX, YY og ZZ kan ZZ være en forstyrrende variabel (confounder) i forholdet mellom XX og YY når de kausale forholdene inkluderer strukturen XZYX \leftarrow Z \rightarrow Y. Hvis variabelen ZZ er en kolliderer, vil kausale forhold mellom XX og YY være omvendt, det vil si XZYX \rightarrow Z \leftarrow Y. Hvis ZZ fungerer som en mediator, vil kausaliteten ha formen XZYX \rightarrow Z \rightarrow Y.

En sti i grafen representerer en sekvens av noder og piler som kobler to variabler, uavhengig av retningen på årsaken. En rettet sti, hvor alle pilene peker i samme retning, er en viktig komponent i do-kalkulus, spesielt når forskeren forsøker å forstå forholdet mellom behandling (XX) og resultat (YY). For eksempel, når stien går fra XX til ZZ, og derfra videre til YY, vil XX være en forfar til ZZ og ZZ en etterkommer av XX. I et kausalt nettverk er det avgjørende at stier som ikke er blokkert kan føre til en kausal assosiasjon, og derfor er det nødvendig å blokkere ikke-kausale stier for å forstå de ekte årsakene bak dataene.

To variabler, XX og YY, sies å være d-separert (direkte separert) ved hjelp av et sett variabler SS, hvis alle stier mellom XX og YY er blokkert etter at man har betinget på SS. Dette resultatet, som kalles den globale Markov-betingelsen, er viktig for å gjøre antagelser om at betinget uavhengighet kan brukes for å estimere behandlingsvirkninger som ATEATE (Average Treatment Effect). Dette betyr at vi kan beregne forskjellen i gjennomsnittlige utfall etter å ha manipulert variabelen XX med en do-operasjon: ATE=E[Ydo(X=x1)]E[Ydo(X=x0)]ATE = E[Y \mid do(X = x_1)] - E[Y \mid do(X = x_0)], hvor effekten kan estimeres som forskjellen mellom gjennomsnittsverdiene for forskjellige verdier av XX.

Når det gjelder justeringer for forstyrrende faktorer, finnes det flere metoder som kan brukes for å isolere kausale effekter, blant annet backdoor- og frontdoor-justeringer, samt metoden med instrumentvariabler.

En backdoor-sti mellom XX og YY er en ublokket ikke-kausal sti som forbinder de to variablene. For eksempel kan YZXY \leftarrow Z \rightarrow X representere en backdoor-sti. Denne typen stier kan blokkere den kausale sammenhengen hvis man betinger på en passende sett med variabler SS. Et sett SS er tilstrekkelig for å blokkere backdoor-stier dersom to betingelser er oppfylt: (i) betinget på SS blokkerer det alle backdoor-stier mellom XX og YY, og (ii) SS inneholder ikke noen etterkommere av XX. Dette betyr at man kan justere observasjonene for å simulere en do-operasjon på XX og på den måten isolere den kausale effekten.

I tilfeller hvor det ikke er mulig å betinge på en variabel som tilfredsstiller backdoor-kriteriet, for eksempel hvis denne variabelen er latent (ikke observerbar), kan frontdoor-kriteriet benyttes. En variabel SS tilfredsstiller frontdoor-kriteriet hvis den oppfyller tre betingelser: (i) alle kausale stier fra XX til YY går gjennom SS; (ii) det finnes ingen backdoor-sti mellom XX og SS; og (iii) alle backdoor-stier mellom SS og YY er blokkert ved betinging på XX. Dette kriteriet tillater forskere å kontrollere for latent forstyrrelse via en mediator. For eksempel, hvis det er en latente variabel ZZ som forstyrrer forholdet mellom XX og YY, kan man bruke en mediator MM for å mediere den kausale effekten fra XX til YY.

Til slutt kan metoden med instrumentvariabler være nyttig når det ikke finnes en mediator, men forskeren ønsker å kontrollere for en latent forstyrrer ZZ. Instrumentvariabler er en teknikk som gjør det mulig å finne en variabel som er relatert til XX men ikke direkte påvirker YY, og dermed kan brukes til å isolere den kausale effekten av XXYY.

Det er viktig å forstå at disse metodene – do-kalkulus, backdoor og frontdoor justeringer, og instrumentvariabler – gir forskere verktøy for å navigere i de komplekse relasjonene mellom variabler og isolere de kausale effektene som er nødvendige for å bygge pålitelige økonomiske og finansielle modeller. Å forstå hvordan kausalitet kan manipuleres og estimeres gir en dypere innsikt i hvordan økonomiske fenomener fungerer på en fundamentalt nivå.