Hersh henviser til påstanden om, at datafirmaer besidder stærkt prædiktive – og dermed manipulerende – modeller som “informationsfejltagelsen”. Han har endda givet et navn til den analytiske proces, der fremhæver dens skrøbelighed i forhold til den underliggende virkelighed: “den opfattede vælgermodel”. Det er vigtigt at forstå, at den opfattede vælger ikke er den faktiske vælger. Den opfattede vælger er den imaginære vælger, der opstår fra firmaernes data og modelleringsteknikker. Hersh påpeger, at der ofte er et stort gab mellem den opfattede vælger og den virkelige vælger, hvilket understøtter vores påstand om usikkerheden i de første tre trin i figur 1. Han konkluderer, i modsætning til mediernes narrative, at “politiske kampagner, der arbejder med store befolkninger, sjældent har encyklopædisk viden om vælgernes dispositioner” (2015, 37).

Sumpters bog er også yderst relevant for trin 1–3 i figur 1, da han dedikerer et helt kapitel til Cambridge Analytica, passende betitlet “Cambridge Hyperbolytica”. Det interessante ved bogen er, at den blev udgivet efter valget i 2016, men at interviewene og skriverierne stort set var afsluttet før den såkaldte skandale nåede pressen. Sumpters analyse er derfor særligt indsigtsfuld, fordi den ikke primært er drevet af medieomtale, som den senere kontrovers fik. Han anerkender, at påstandene om, at Cambridge havde undermineret demokratiet, var bekymrende, men hævder, at de sandsynligvis ikke var særlig præcise.

Som anvendt matematiker, der har arbejdet indgående med de modeller, der blev anvendt i Cambridge, nedbryder Sumpter omhyggeligt de mange skridt (og antagelser), der er involveret i at opbygge de teoretiske modeller, regressionmodellernes begrænsninger generelt og de anvendte datas svagheder. Han konkluderer, at disse firmaers algoritmer er yderst fejlbarlige (2018, 52–58). Faktisk skitserer Sumpter – som enhver økonom ville gøre – de incitamenter, som forskellige personer i disse firmaer har for at overdrive deres succeser. I sine samtaler med Kogan, en af Cambridge Analyticas ledende skikkelser, begyndte Kogan selv at trække sig tilbage fra tidligere påstande, idet han sagde, at han “ikke troede, at Cambridge Analytica, eller nogen anden, kunne producere en algoritme, der effektivt klassificerede menneskers personlighed”. Kogan fortalte Sumpter, at Alexander Nix, administrerende direktør, fremhævede personlighedsalgoritmen “fordi han havde et stærkt økonomisk incitament til at fortælle en historie om, hvordan Cambridge Analytica havde et hemmeligt våben” (2018, 54).

Inflationen af firmaets evner kan også ses i en historie fra CNN i 2018, hvor det blev rapporteret, at “Cambridge Analyticas daværende produktchef Matt Oczkowski sagde, at Trump-kampagnens tempo fik hans firma til at stole mindre på personlighedsprofiler og i stedet fokusere på traditionelle datatjenester… ‘Vi brugte ikke rigtig psykografik så meget, fordi vi var nødt til at gå, før vi kunne løbe,’ sagde Oczkowski” (Devine et al. 2018; fremhævelse tilføjet). Den samme artikel bekræfter også de problemer, vi har skitseret i trin 1–3, idet den bemærker, at “den faktiske effektivitet af psykografik forbliver tvivlsom… ‘Cambridge Analyticas tilgang er massivt overhypet, bare fordi ordet ‘psyk’ er i det. Der er ingen overbevisende videnskabelig evidens for, at den tilgang, de anvender, på nogen måde er effektiv,’ sagde David Rand, en professor i psykologi og økonomi ved Yale.”

Det ultimative spørgsmål er naturligvis, om det er muligt for udenforstående at vurdere effektiviteten af Cambridge Analyticas algoritmer. For at teste effektiviteten af Kogans personlighedstest-app, brugte Sumpter en tutorialpakke, som blev skabt af Michal Kosinski, en psykolog fra Cambridge Universitet, og hans kolleger. Denne pakke gjorde det muligt for psykologistuderende at “prøve at oprette regressionsmodeller på en anonym database med 20.000 Facebook-brugere” (2018, 50). Sumpters mål var at skabe en algoritme, der så tæt som muligt matchede den, Cambridge brugte, netop fordi udenforstående ikke havde adgang til firmaets specifikke algoritmer. Denne øvelse gav Sumpter mulighed for at fremhæve flere begrænsninger ved Cambridge-algoritmen og de datasæt, der blev anvendt. For eksempel konkluderede han, at en Facebook-bruger skulle give flere hundrede “likes” for at kunne generere pålidelige statistiske forudsigelser, hvilket er betydeligt mere end det antal likes, som de fleste Facebook-brugere giver. Kun 18 procent af brugerne “likede” mere end 50 indlæg (53). Med andre ord var betydeligt færre end 20 procent af dem, som Cambridge havde data om, sandsynligvis anvendelige i deres algoritmer, fordi hvis kun 18 procent likede mere end 50 indlæg, ville endnu færre have liket de nødvendige flere hundrede.

Sumpter satte også spørgsmålstegn ved Cambridges påstande om, at de kunne målrette personer, der udviste narcissistiske, machiavellistiske og psykopatiske træk (da disse ville være mere modtagelige for Trump-kampagnens budskaber). Selvom han ikke direkte testede disse træk på grund af databegrænsninger, forsøgte han at bestemme, om han kunne skelne personer, der var neurotiske, samvittighedsfulde eller venlige, ud fra deres Facebook-likes. Ved at teste denne binære regressionsmodel (dvs. “ja, person a er neurotisk” eller “ikke”) mod data, han havde samlet fra en separat personlighedstest, fandt han, at hans regressionsmodel kunne forudsige disse træk i kun 60 procent af tilfældene (Sumpter, 53–54). Når han extrapolerede disse resultater til Cambridge-sagen, indikerede det, at deres algoritmer kun ville producere resultater, der var 10 procent bedre end et helt tilfældigt 50-50 kast. I tråd med denne konklusion lærte Sumpter senere i et personligt interview med Kogan, at firmaet anerkendte, at deres personlighedsalgorithm ikke var særligt effektiv. Kogan lavede computersimulationer baseret på Twitter-data og fandt, at “selvom aspekter af personligheden kunne måles ud fra vores digitale fodspor, var signalet ikke stærkt nok til at lave pålidelige forudsigelser” (Sumpter, 54). Denne ærlige vurdering stemmer overens med vores påstand – især i relation til trin 1–3 i figur 1 – om, at det er langt mere vanskeligt at opnå robuste kvantitative indsigter gennem regressionsmodeller, end deres fortalere hævder.

Hvordan politiske kampagner bruger data: Etisk dilemma og moderne udfordringer

I den moderne politiske verden er det næsten umuligt at ignorere den rolle, som data spiller i valgkampagner. Teknologier som mikro-målretning og adfærdsmæssig manipulation er blevet standardredskaber for kampagner, der søger at nå ud til vælgere med præcise, personlige budskaber. Det er derfor nødvendigt at reflektere over, hvad der er blevet et fundamentalt etisk dilemma for politiske aktører og vælgere: Hvordan balanceres behovet for overtalelse med beskyttelsen af individets privatliv og beslutningstagning?

Fokus i diskussionen har ofte været på én særlig aktør, Cambridge Analytica, og den kontroversielle brug af personlige data i forbindelse med Brexit og præsidentvalget i USA i 2016. Imidlertid er det værd at bemærke, at mange andre kampagner også har benyttet sig af lignende strategier, som er blevet almindelige i datadrevne politiske kampagner. Dette rejser spørgsmålet om, i hvilken grad vi bør kritisere en enkelt aktør, når det egentlig handler om et langt større fænomen, der allerede er dybt indlejret i politik og valgkampe på globalt plan.

Målet med en politisk kampagne er, som udgangspunkt, at overtale vælgere. Dette er en naturlig funktion i et demokratisk system, hvor oplysning og debatter er nøglen til at sikre informeret beslutningstagning. Hvis man accepterer, at politiske kampagner er designet til at overbevise, er det derfor et underligt synspunkt at insistere på, at disse kampagner kun bør bruge visse metoder eller tage hensyn til bestemte etiske standarder. Overvejelsen bliver endnu mere kompleks, når vi spørger, om vælgerne overhovedet har de nødvendige kognitive eller moralske redskaber til at analysere og vurdere de budskaber, de udsættes for. Hvis man tror, at folk ikke nødvendigvis kan træffe “korrekte” politiske beslutninger, bliver spørgsmålet så, hvordan vi regulerer disse teknikker?

Der er også en erkendelse af, at Cambridge Analyticas handlinger, på mange måder, ikke adskilte sig markant fra andre kampagners strategier. Den spektakulære omtale af deres succes kan derfor være misvisende. Men samtidig bør vi være opmærksomme på de etiske problemer, der opstår, når private data misbruges uden individernes viden, og hvad disse data bruges til. At mange mennesker uforvarende mister kontrol over private aspekter af deres liv er en bekymrende udvikling, der kan få alvorlige konsekvenser for samfundets tillid og individets frihed. Det er især bekymrende, når man ser på, hvordan teknologierne til dataanalyse hurtigt udvikler sig. Fremtidige anvendelser af kunstig intelligens og mere avancerede analyseværktøjer kan føre til langt mere raffineret udnyttelse af individets privatliv, ofte uden at de berørte personer er klar over det.

I denne sammenhæng er det også vigtigt at reflektere over den moderne "dataøkonomi", som vi alle er en del af. Der er i dag et væld af data, som genereres af vores online adfærd, vores sociale medier og vores interaktioner med teknologiske platforme. Denne strøm af data bruges ikke kun til at forstå vores købsvaner, men også til at analysere og forudsige vores politiske beslutninger. Virksomheder som Cambridge Analytica har været i stand til at udnytte disse data til at målrette politiske budskaber, der appellerer direkte til den enkeltes præferencer, holdninger og endda frygt. Når dataene bliver så detaljerede og præcise, bliver det svært at adskille dem fra selve individets personlige valg. De bliver ikke bare et værktøj til målretning, men en måde at styre beslutningsprocesserne på, ofte uden at vi er opmærksomme på, hvordan vi bliver påvirket.

Den etiske overvejelse i denne sammenhæng er, hvor langt man kan gå i udnyttelsen af data, før det bliver til manipulation. Skal vi regulere, hvordan disse data indsamles og bruges? Skal vi kontrollere, hvilke teknologier kampagner har adgang til, og hvordan de kan anvendes til at forme vælgernes holdninger og adfærd? Det er ikke et spørgsmål om at stoppe politikere eller kampagner fra at bruge de værktøjer, de har til rådighed, men om at skabe en balance mellem effektiv kommunikation og respekt for individets autonomi.

Samtidig skal man forstå, at regulering af disse teknologier ikke nødvendigvis vil løse alle problemer. Det er en dybt integreret del af den moderne økonomi og politiske kultur, og de teknologier, der bruges til at påvirke vælgere, vil fortsat udvikle sig. Hvad vi har brug for, er et større fokus på transparens – både hvad angår hvordan data indsamles, og hvordan de bruges. Vælgere skal have adgang til information om, hvordan deres data bliver behandlet, og hvilken indflydelse det kan have på deres politiske beslutninger.

Denne debat bør ikke kun begrænse sig til diskussionen om et konkret selskab eller en enkel kampagne, men også om den bredere udfordring, vi står overfor som samfund i en stadig mere digital verden. De etiske og praktiske udfordringer vedrørende data i politik er ikke kun relevante for den enkelte kampagne, men for hele demokratiets fremtid i en digital tidsalder.