I den ekonometriska litteraturen är användningen av instrumentvariabler ett centralt begrepp när det gäller att förstå och hantera kausala relationer. En instrumentvariabel W är en variabel som påverkar behandlingen X, men som inte direkt påverkar resultatet Y, förutom genom att påverka X. En sådan variabel blockerar alltså alla bakdörrsvägar genom andra variabler, vilket gör att den kan användas för att identifiera och estimera den kausala effekten mellan X och Y.

För att en variabel W ska uppfylla kriterierna för en instrumentvariabel måste tre villkor vara uppfyllda. För det första, W måste ha en pil som pekar mot X (dvs. W → X). För det andra, den kausala effekten från W till Y måste vara helt medierad genom X, det vill säga W påverkar Y endast genom sin påverkan på X. För det tredje, det får inte finnas någon bakdörrsväg mellan W och Y, vilket innebär att det inte ska finnas några indirekta vägar som påverkar relationen mellan W och Y genom andra variabler.

Exempelvis, i ett kausalt diagram där X är en behandling och Y är ett resultat, kan Z vara en latent (eller dold) variabel som förvirrar den kausala relationen mellan X och Y. Om vi använder W som en instrumentvariabel, kan vi identifiera och kvantifiera den kausala effekten av X på Y genom att justera för effekten av W. Detta gör det möjligt att uppskatta den oberoende effekten av X på Y utan att den förvrängs av Z.

I ett sådant scenario, om vi antar ett linjärt kausalt samband, kan vi uppskatta den orsakssambandskoefficienten för effekten av X på Y genom att använda instrumentvariabler. Först beräknas koefficienten för W → X → Y genom att använda regression, där vi beräknar lutningen av Y i förhållande till W. Den här lutningen ger oss en uppskattning av effekten av W på Y. Sedan beräknar vi lutningen av X i förhållande till W, vilket ger oss en uppskattning av effekten av W på X. Den slutliga justerade (och oberoende) koefficienten för effekten av X på Y kan sedan beräknas som produkten av dessa två koefficienter.

För att förstå dessa begrepp är det viktigt att inte förväxla orsakssamband med associationer. Ekonometriska modeller har ofta använts för att estimera samband mellan variabler, men de har inte alltid korrekt hanterat frågan om orsak och verkan. Detta är ett vanligt problem inom ekonometrisk analys, där många böcker och artiklar blandar samman begreppen orsaksförhållande och association. Faktum är att många ekonometriska modeller implicit antar att det finns ett orsakssamband, även om detta inte alltid uttrycks tydligt.

Exempelvis i en regressionsmodell som Yt = β0 + β1Xt + εt, representerar εt den del av Y som inte kan förklaras av X. Men om vi omformulerar modellen och antar att Y orsakar X istället (Xt = γ0 + γ1Yt + ζt), kommer de uppskattade parametrarna för dessa modeller inte att vara konsekventa med varandra. Detta innebär att regressionsmodeller faktiskt ofta implicerar ett orsakssamband mellan X och Y, även om det inte alltid görs explicita antaganden om detta.

För att korrekt uppskatta effekterna av orsakssamband i ekonometriska modeller, är det nödvändigt att förstå hur regressionskoefficienterna beräknas och vilka förutsättningar som måste vara uppfyllda för att dessa uppskattningar ska vara rättvisa och inte förvrängda av dolda variabler eller förväxlade samband. I många fall används metoder som "least squares" för att uppskatta sådana koefficienter, men det är avgörande att förstå att dessa metoder inte alltid ger rättvisa eller exakta resultat utan rätt justeringar och antaganden om kausala mekanismer.

För den som vill fördjupa sig ytterligare är det användbart att förstå de olika teknikerna för att identifiera orsakssamband. Instrumentvariabler är en metod, men det finns också andra metoder som do-calculus, som ger en mer robust ram för att hantera komplexa kausala frågor. Dessutom är det viktigt att förstå att kausala modeller inte bara handlar om att uppskatta parametrar från data, utan också om att formulera och testa kausala hypoteser, vilket kräver en förståelse för kausala diagram och nätverk.

Hur man undviker bias i kausal modellering och förstår tidseriers egenskaper

För att kunna göra pålitliga orsakssambandsanalys är det avgörande att hålla isär olika faser av den statistiska undersökningen. I den första fasen (stage 1) upptäcks den kausala grafen som bäst förklarar fenomenet som helhet, inklusive både observationella bevis och extra-statistisk information. Detta innebär att vi bygger en bild av hur olika variabler är relaterade och vilka orsakssamband som kan tänkas existera. När denna graf väl är identifierad, går man vidare till den andra fasen (stage 2), där en faktormodell ska specificeras för att exakt estimera en av de kausala effekterna som dekarerats i den kausala grafen, genom användning av do-kalkyl. Här är det viktigt att förstå att den rätta specifikationen av faktormodellen inte handlar om att förutsäga Y bäst, utan snarare om att avlägsna bias från skattningen av en viss behandlingsvariabel i enlighet med den kausala grafen.

Det är lätt att se hur faran ligger i att basera valet av faktormodell på förklaringskraften. Ett sådant val kan leda till felaktiga skattningar av kausaleffekter genom att överkontrollera eller sammanblanda variabler som egentligen inte bör ingå i samma modell. Ett vanligt problem är när forskare försöker kombinera flera orsaker till Y för att modellera en interaktionseffekt, utan att korrekt ha beaktat den kausala grafen som steg 1 har upptäckt. Detta kan leda till felaktiga slutsatser om förhållandena mellan variablerna och påverka tolkningen av risken eller avkastningen.

Förutom att välja fel modell kan felaktig specifikation också uppkomma på grund av multikollinearitet, vilket betyder att två eller flera förklarande variabler är starkt korrelerade. Detta kan leda till att skattningarna av dessa parametrar blir instabila, särskilt när de är inblandade i en felaktig modell. Det är också viktigt att förstå att även om vissa statistiska metoder kan visa att en variabel inte är redundant med en annan, finns det mer sofistikerade verktyg som kan användas för att analysera sådana relationer, såsom mutual information eller variation av information. Dessa metoder är mer effektiva för att hantera komplexa interaktioner mellan variabler än att bara lita på en enkel faktoranalys.

En annan viktig aspekt som ofta förbises är den tidsmässiga egenskapen hos data, särskilt i tidsserieanalyser. Här kan två variabler verka korrelerade trots att de inte har något verkligt kausalt samband, bara för att deras tidsserier inte är stationära eller för att de uppvisar starka autokorrelationsmönster. I sådana fall kan statistiska tester som unit root och cointegration hjälpa till att analysera residualerna och säkerställa att ingen typ B-falsk påstående görs, men de kan inte helt eliminera risken för falska kausala påståenden. För att undvika dessa problem krävs en noggrant specificerad kausalmodell.

Det är också av stor vikt att förstå den hierarkiska ordningen av bevis inom vetenskaplig forskning. Alla typer av empiriska bevis är inte lika starka. Vissa bevis är mer benägna att vara spuriösa, det vill säga att de inte på riktigt återspeglar ett orsakssamband utan snarare en tillfällig korrelation. I finansforskning rankas olika typer av bevis utifrån deras vetenskapliga stringens. På toppen av hierarkin finns de randomiserade kontrollerade experimenten (RCTs), som erbjuder den största graden av transparens och reproducerbarhet. De bygger på antagandet att de underliggande kausala mekanismerna kommer att fortsätta verka på samma sätt i framtiden. Därefter kommer naturliga experiment och simulerade interventioner, som, även om de är starkare än ekonometriska studier, fortfarande har sina begränsningar när det gäller att säkerställa kausalitet.

De ekonometriska (observations-)studier som ofta används i finansforskning bygger främst på statistiska mönster, vilket gör dem mer sårbara för både typ A- och typ B-spuriösa samband. Dessa typer av bevis kan vara användbara, men de bör alltid tolkas med försiktighet och kompletteras med starkare bevis, som exempelvis simulerade eller naturliga experiment, när det gäller att dra slutsatser om kausala effekter.

För den som är intresserad av att förstå orsakssamband inom finans eller andra områden är det viktigt att alltid hålla i åtanke de teoretiska och praktiska riskerna med felaktiga specifikationer i modeller. Oavsett om man använder maskininlärning, ekonometriska modeller eller kausala diagram, är den grundläggande principen densamma: att de val som görs vid modelleringen av data måste vara noggrant övervägda och baserade på en solid förståelse av de underliggande kausala mekanismerna, inte bara på de statistiska mönstren i datan.

Hur falsifierar man teorier och påståenden inom kvantitativ forskning?

Falsifikationsprincipen är ett grundläggande koncept inom statistik och ekonometrik. Inom dessa områden är det vanligt att använda sig av Fisher’s p-värden och Neyman–Pearsons ramverk för att falsifiera en föreslagen hypotes (H0). Detta sker genom en hypotetisk-deduktiv argumentation där man undersöker om sannolikheten att de observerade data stämmer överens med H0 är tillräckligt låg för att förkasta den. Formellt uttrycks detta som:
H0)P[dataH0]α;P[dataH0]<α:¬H0H_0) P[\text{data} \mid H_0] \geq \alpha; P[\text{data} \mid H_0] < \alpha : \neg H_0.
Där data representerar de observationer som görs och α\alpha är den förutbestämda felaktiga positivt resultatfrekvensen.

Detta tillvägagångssätt liknar en modus tollens-syllogism, med den viktiga skillnaden att H0 inte kan förkastas med absolut säkerhet, utan endast med en förutbestämd grad av tilltro eller konfidens. Denna metod betraktas därför som ett stokastiskt bevis genom motsägelse, där säkerhet ersätts med en förutbestämd konfidensnivå. Att misslyckas med att förkasta H0 innebär inte att hypotesen har validerats, utan snarare att det inte finns tillräckligt med empiriska bevis för att allvarligt ifrågasätta dess sanningshalt. Det innebär att i kvantitativa vetenskaper, som i Popperianska synsätt, kan en hypotes aldrig accepteras med säkerhet, utan endast falsifieras (se Wilkinson 2013).

I statistisk hypotesprövning tillämpas denna falsifikationsprincip på två typer av påståenden: associationspåståenden och kausala påståenden. Falsifikation av associationspåståenden sker ofta i den fenomenologiska fasen av den vetenskapliga metoden, där exempelvis forskaren finner att "X är korrelerad med Y". Denna typ av falsifikation kan baseras på endast observationella data.

Falsifikation av kausala påståenden, å andra sidan, är mer komplex och kräver att forskaren inte bara observerar sambandet mellan två variabler utan också designar experiment för att undersöka om en variabel faktiskt orsakar en annan. Kausal falsifikation kan antingen ske i den fenomenologiska fasen (som när man finner att "X orsakar Y", men utan att ha en teori för varför) eller i den falsifikatoriska fasen, där en teori undersöks, till exempel: "X orsakar Y genom mekanismen M". Oavsett vilket kräver falsifikation av kausala påståenden alltid ett experiment, som kan vara svårt att designa korrekt för att isolera de oberoende effekterna längs den kausala kedjan.

I forskningssammanhang är de flesta statistiker och ekonometriker tränade att falsifiera associativa påståenden, men de har ofta begränsad förståelse för hur kausala påståenden eller teorier falsifieras statistiskt. För att falsifiera kausala teorier krävs det att den föreslagna kausala mekanismen testas genom att undersöka de oberoende effekterna längs den föreslagna kausala vägen.

En annan viktig aspekt av kvantitativ forskning är begreppet "orsakssamband" inom kausal inferens. Detta akademiska område syftar till att bestämma effekten av en viss variabel inom ett större system, vilket är en utmaning. Tänk på två slumpmässiga variabler, XX och YY, där forskaren vill uppskatta effekten av XXYY. Den genomsnittliga behandlingseffekten (ATE) är den förväntade förändringen i YY när XX förändras från en nivå till en annan, och definieras som:

ATE=E[Ydo(X=x1)]E[Ydo(X=x0)]\text{ATE} = E[Y \mid do(X = x_1)] - E[Y \mid do(X = x_0)]

I praktiken är dock detta sällan lika med den observerade skillnaden mellan E[YX=x1]E[Y \mid X = x_1] och E[YX=x0]E[Y \mid X = x_0], eftersom denna skillnad är påverkat av självselektion och andra bakomliggande faktorer som inte direkt kan observeras. Denna snedvridning, kallad självselektion bias (SSB), kan leda till allvarliga felaktiga slutsatser. Ett klassiskt exempel på detta är korrelationen mellan höga glassförsäljningar och flera drunkningstillbud, där värmevädret som påverkar både glassförsäljning och simning är den verkliga bakomliggande faktorn. Den observerade skillnaden är inte orsakad av glassförsäljningens effekt på drunkningar, utan av den underliggande variabeln, vädret.

För att hantera denna typ av snedvridning har forskare utvecklat metoder för att skapa experiment som eliminerar denna bias. Dessa experiment kan delas in i tre huvudtyper: interventionsstudier, naturliga experiment och simulerade interventioner. I interventionsstudier genomförs kontrollerade experiment där forskaren förändrar variabeln XX och observerar dess effekt på YY medan alla andra faktorer hålls konstanta. Denna typ av experiment är fundamental för att kunna dra slutsatser om kausala relationer.

Att förstå och korrekt tillämpa dessa metoder är avgörande för att kunna göra trovärdiga påståenden om kausalitet i kvantitativ forskning. Genom att noggrant designa experiment och kontrollera för bias kan forskare komma närmare sanningen om hur olika faktorer verkligen påverkar varandra.