Att skapa effektiva och informativa visualiseringar av politiska röstandelar kräver att vi noggrant funderar på hur data kodas och presenteras visuellt. Med hjälp av ggplot2, ett kraftfullt bibliotek i R för datavisualisering, kan vi på ett effektivt sätt kombinera olika tekniker för att skapa tydliga och lättförståeliga diagram. I denna text går vi igenom de grundläggande stegen för att visualisera politiska röstandelar per parti och region, samt hur vi kan förbättra förståelsen av sådana diagram.

I vår visualisering börjar vi med att mappa den politiska partiet till x-axeln, där partierna är kategoriska variabler. Det innebär att varje politiskt parti representeras av en egen kategori på axeln. För att förbättra läsbarheten på diagrammet, använder vi reorder() för att ordna partierna efter deras röstandel, vilket gör att de mer populära partierna visas först på vänster sida. Röstandelen kodas till y-axeln, där varje partiets röstandel visas som barlängd, vilket är ett effektivt sätt att visa magnituder i en visualisering.

För att skapa diagrammet använder vi funktionen geom_col() för att generera staplarna, vilket är det bästa valet när vi vill visa kvantitativa data som staplar. För att förbättra läsbarheten ytterligare, kan vi använda coord_flip(), vilket roterar diagrammet så att staplarna visas horisontellt. Detta gör det lättare att läsa etiketterna på x-axeln, speciellt när partinamnen är långa.

För att förstärka förståelsen av varje partis resultat använder vi färgkodning för att representera varje parti. Eftersom politiska partier ofta är associerade med specifika färger, kan vi använda dessa färger för att symbolisera varje parti. Standardfärgerna i ggplot2 kan vara lämpliga för vissa användare, men vi kan enkelt byta till en mer relevant färgskala med scale_fill_manual(), där vi definierar en egen färgpalett för de olika partierna. I exemplet nedan definierar vi färger för de största brittiska partierna:

r
con <- "#0575c9" lab <- "#ed1e0e" ld <- "#fe8300" snp <- "#ebc31c" green <- "#78c31e" pc <- "#4e9f2f" brexit <- "#25b6ce" other <- "#bdbdbd"
party_colours <- c(con, lab, ld, snp, green, brexit, pc)

När vi sedan tillämpar scale_fill_manual() i ggplot2, ser vi till att varje parti får sin specifika färg:

r
ggplot(aes(x=reorder(party, vote_share), y=vote_share)) +
geom_col(aes(fill=party)) +
scale_fill_manual
(values=party_colours) + coord_flip() + facet_wrap(~region)

Ett annat viktigt koncept är användningen av facettering, som gör att vi kan dela upp diagrammet efter regioner. Detta gör att vi kan visa röstandelar för varje parti i olika delar av landet, vilket ger en mer detaljerad bild av hur olika regioner röstar. Genom att använda facet_wrap(~region) kan vi enkelt skapa facetterade diagram som gör det möjligt för läsaren att jämföra röstandelarna mellan olika regioner.

För att skapa en mer omfattande förståelse av politiska förändringar kan vi även skapa scatterplots som jämför röstandelar från olika valår, exempelvis från 2017 till 2019. Ett sådant diagram hjälper oss att visuellt analysera förändringar i väljarsympatier mellan åren. I ett sådant fall placeras röstandelen från 2017 på x-axeln och röstandelen från 2019 på y-axeln, och varje punkt representerar en vald region eller enhet. Om regionen röstade lika i båda åren skulle punkten ligga på diagonalen.

I praktiken är det viktigt att använda funktioner som mutate() för att omvandla data innan de används i visualiseringen. Till exempel kan vi skapa en ny variabel som anger vilket parti som vann valet 2019 och använda denna för att färga punkterna på scatterploten:

r
data_gb |> mutate(winner_19=case_when(
winner_19 == "Conservative" ~ "Conservative",
winner_19
== "Labour" ~ "Labour", TRUE ~ "Other" )) |> ggplot(aes(x=con_17, y=con_19)) + geom_point(aes(colour=winner_19), alpha=.8)

En annan viktig aspekt är förståelsen av "Grammar of Graphics", som ligger till grund för ggplot2. Enligt Hadley Wickham handlar detta om att definiera ett visuellt språk för att snabbt kunna förbereda data för visualisering. Det innebär att du inte behöver oroa dig för alla tekniska detaljer om hur diagrammet ritas, utan kan fokusera på att kartlägga data på ett sätt som stödjer din analys.

I den här processen är det viktigt att förstå att även om ggplot2 ger ett kraftfullt verktyg för visualisering, kräver det en viss mängd förberedelse av data. Detta inkluderar att omvandla och strukturera data på rätt sätt så att det passar för grafisk presentation. Det är denna förberedelse som gör det möjligt att skapa de rika, informativa visualiseringarna som vi ser i diagrammen ovan.

Visualiseringar handlar inte bara om att rita bilder; de ska hjälpa oss att förstå data bättre. När vi använder ggplot2 och andra verktyg för att visualisera politiska trender och röstandelar är det avgörande att noggrant tänka på hur data presenteras, vilka färger och former vi använder, och hur vi strukturerar våra diagram för att göra de underliggande mönstren tydliga.

Vad kan åldersfördelningen hos fotgängare vid vägolyckor säga oss om trafiksäkerhet?

I samband med vägolyckor där fotgängare är inblandade, visar statistik att den genomsnittliga åldern för de skadade fotgängarna är förvånansvärt låg. En intressant aspekt att undersöka är hur fördelningen av skadade fotgängares ålder varierar beroende på vilken typ av fordon som är inblandat. I figur 4.2 visas boxplot-diagram och densitetsdiagram som representerar spridningen och placeringen av åldrar bland de skadade fotgängarna, indelat efter typ av fordon och individuella trafikanter. En tydlig observation är att förare av cyklar och motorcyklar tenderar att vara yngre än de fotgängare de kolliderar med, medan för bussar, taxibilar, lastbilar och personbilar är det tvärtom – fotgängarna är oftast yngre än förarna.

Genom att använda densitetsdiagram kan vi se fördelningens form och få en visuell uppfattning om statistiska egenskaper som medelvärde och median för åldern på de skadade. Trots att fördelningen är ganska utspridd, visar diagrammen att den har en högerskev fördelning, vilket innebär att flertalet skador inträffar bland yngre individer, även om det finns en spridning även bland äldre åldersgrupper. Detta går i linje med att medelåldern är 36 år, medan medianen ligger på 30 år.

Boxplot-diagram är också användbara för att ge en snabb översikt av spridningen av åldrar, där lådan representerar interkvartilavståndet (IQR), medan medianen markeras med en vertikal linje. De så kallade "whiskers" sträcker sig till observationer som ligger inom 1,5 gånger IQR, vilket ger en visuell bild av variationen i data. Dessa diagram är särskilt användbara när man jämför många fördelningar samtidigt, eftersom de är kompaktare och enklare att läsa än detaljerade histogram.

Histogram är ett annat sätt att analysera åldersfördelningen. I detta fall indelas observationerna i lika stora intervall, och varje intervall representeras av en stapel vars längd motsvarar antalet observationer i det intervallet. Ju fler intervall som används, desto mer detaljerad blir fördelningen. Men histograms kan ibland skapa diskontinuiteter och kant-effekter vid gränserna mellan intervallerna, vilket kan göra det svårare att tolka fördelningens verkliga form. Densitetsdiagram, å andra sidan, jämnar ut dessa effekter och ger en smidigare representation av fördelningen, vilket gör det lättare att identifiera mönster.

Vid analys av kategoriska variabler, till exempel typ av fordon inblandat i olyckor, används ofta stapeldiagram för att visa frekvenser. Här representeras varje kategori av en stapel vars längd motsvarar antalet observationer för den specifika kategorin. För att jämföra flera kategorier på ett effektivt sätt kan man använda liggande stapeldiagram, där kategorinamn lättare kan läsas och förstås.

En annan intressant aspekt är att analysera hur variablerna samspelar med varandra. I figur 4.4 visas hur krockfrekvenser för fotgängare varierar beroende på om olyckorna inträffade under vardagar eller helger, och hur detta förhåller sig till olika typer av fordon. Denna typ av jämförelse kan ge insikter om mönster som är specifika för vissa tider eller typer av trafik. För att ytterligare undersöka detta kan man använda värmekartor, som gör det möjligt att visualisera variationen i olyckor beroende på både fordonsklass och tidpunkt på dagen.

För att verkligen förstå de bakomliggande orsakerna till trafikolyckor och deras fördelning är det viktigt att gå bortom bara statistiska analyser och även överväga de mer komplexa faktorer som kan påverka dessa mönster. Till exempel kan ålder, typ av fordon och tid på dygnet samverka på olika sätt, vilket gör att vissa grupper är mer utsatta än andra.

Det är också nödvändigt att förstå att de observerade mönstren inte alltid är ett resultat av de specifika trafiksituationen utan kan också vara kopplade till sociala och kulturella faktorer, som tillgång till transport, fotgängares beteende och hur samhället utformar sina städer och vägar. Exempelvis kan tätare trafik i stadskärnor under vardagar vara en förklaring till den ökade olycksfrekvensen där, vilket gör att mönstren kan vara mer komplexa än vad som först verkar.

Hur geografisk kontext påverkar Leave-röster: En djupdykning i regressionsmodeller och regionala effekter

I en flermodell av Leave-röster i olika valdistrikt, efter att ha kontrollerat för olika demografiska faktorer, får vi insikt i hur specifika regioners sammansättning påverkar valresultaten. De regressionskoefficienter som presenteras i modellerna ger en detaljerad bild av hur variabler som kön, utbildning, och etnisk bakgrund samverkar på olika geografiska nivåer, vilket gör att vi kan förstå dynamiken mellan regionernas specifika karaktäristika och Leave-voteringens utfall.

När vi till exempel ser på effekten av den "vita" befolkningen, konstaterar vi att den tidigare svagt negativa associationen mellan denna variabel och Leave-votering nu har ändrats till en förväntad positiv relation, givet att de andra demografiska faktorerna hålls konstanta. Det innebär att i de regioner där andelen vita invånare är högre, tenderar det att finnas en starkare benägenhet att rösta för Leave. Denna förändring i den statistiska associationen kan vara en viktig indikator på hur demografiska förändringar inom specifika områden kan påverka nationella röster i folkomröstningar, men den påminner oss också om de komplexa interaktionerna mellan olika befolkningsgrupper och den politiska preferensen.

Det är också viktigt att beakta hur andra variabler, som exempelvis andelen EU-födda, påverkar resultatet. Här ses fortfarande en oväntad positiv association mellan EU-födda och Leave-votering i vissa regioner, trots att man hade förväntat sig motsatsen. Detta kan vara ett tecken på att de politiska och socioekonomiska kontexten för EU-migranter varierar beroende på den geografiska placeringen – en aspekt som bör beaktas när man försöker förstå bredden och djupet i ett lands politiska landskap.

I analysen presenteras även en metod för att ta hänsyn till geografiska effekter genom att använda en interaktionsterm i regressionsmodellen. Detta tillvägagångssätt gör att vi kan få separata konstanttermer och koefficienter för varje region. På så sätt får varje valdistrikt en egen, skräddarsydd uppskattning av hur de demografiska faktorerna påverkar Leave-rösterna. Modellen visar att när vi kontrollerar för regionernas unika sammansättning, särskilt för storstadsområden som London, tenderar röstandelen för Leave att vara högre än i andra regioner, såsom North West, trots att de två har liknande demografiska profiler.

Modellen, som inkluderar en fast effekt (FE) och en interaktionsterm för regionen, ger oss en mer nyanserad bild av hur olika faktorer samverkar och gör det möjligt att skapa en mer precis förklaring av hur dessa variabler påverkar Leave-röster. I vissa regioner som Skottland är den negativa effekten av Leave-votering mer uttalad, vilket tyder på att det finns ytterligare regionala kontexter som spelar in, oberoende av de demografiska sammansättningarna. Det är också relevant att observera att när vi ser på resultat för specifika regioner som London, North West och Wales, finns det skillnader i styrkan och riktningen på dessa samband beroende på vilken variabel som analyseras.

I dessa modeller blir det också tydligt hur vissa variabler, som exempelvis utbildning, har konsekvent negativa koefficienter över flera regioner. Detta bekräftar att ju högre utbildningsnivå, desto mer sannolikt är det att individer röstar för att stanna inom EU. Detta samband är dock inte lika tydligt i alla fall. I vissa regioner finns en osäkerhet i koefficienter för vissa variabler, vilket innebär att mer forskning behövs för att bättre förstå de mekanismer som påverkar röstandet på Leave.

För att verkligen förstå dessa samband på en djupare nivå, måste vi också ta hänsyn till den osäkerhet som alltid finns i modelleringen. När vi delar upp våra data i fler regioner eller grupper riskerar vi att förlora statistisk kraft och precision i våra uppskattningar. En alternativ metod för att hantera dessa problem är att använda hierarkiska eller multivärda modeller, där data "lånas" mellan grupper för att ge mer konservativa och mindre lokalt snedvridna koefficienter. Denna metod kan vara särskilt användbar när vi arbetar med geografiskt strukturerad data, där vissa regioner har få observationer, vilket kan göra resultaten osäkra.

En annan metod som kan vara intressant är geografiskt viktad regression (GWR). Denna teknik gör det möjligt att utforska och karaktärisera rumslig heterogenitet, vilket innebär att vi kan se hur effekterna av olika variabler förändras beroende på den specifika geografiska platsen. GWR kan ge oss en mer dynamisk förståelse av hur Leave-votering påverkas av de specifika lokala omständigheterna, såsom regionala ekonomiska faktorer eller historiska erfarenheter.

När vi arbetar med dessa komplexa modeller och tekniker är det viktigt att förstå att den metod vi väljer kan ha stor påverkan på resultaten. Det finns ingen "universell" lösning på hur man ska modellera dessa sambandsstrukturer. Det handlar om att förstå kontexten för de data vi arbetar med och vara medveten om de potentiella svagheterna i de tekniker vi använder.

Hur kan vi analysera och visualisera regionala skillnader i valbeteende och socio-ekonomiska faktorer?

För att förstå de komplexa sambanden mellan socio-ekonomiska variabler och politiska preferenser används ofta statistiska och grafiska metoder för att skapa insikter om hur olika grupper förhåller sig till specifika frågor, som till exempel folkomröstningar. I denna analys använder vi en metod som omvandlar variabler till z-scores för att möjliggöra jämförelser mellan olika områden och grupper.

Det första steget är att transformera de råa data genom att beräkna z-scores för varje variabel, vilket gör det möjligt att förstå hur varje observations värde avviker från medelvärdet i förhållande till standardavvikelsen. Detta är ett kraftfullt verktyg, eftersom det normaliserar variablerna och gör dem jämförbara, även om de mäts på olika skalor eller har olika enheter. För att uppnå detta, används funktioner som mutate(across(c(younger:heavy_industry), ~(.x - mean(.x)) / sd(.x))), där vi justerar alla relevanta variabler genom att subtrahera medelvärdet och dela med standardavvikelsen. På så sätt omvandlas dessa variabler till en enhet som gör det lättare att jämföra dem.

En viktig aspekt av analysen är att vi inte bara fokuserar på hur variabler är fördelade över hela datasetet, utan också på hur de relaterar till den övergripande politiska preferensen, i detta fall "Leave" (utträde ur EU). För att undersöka detta förhållande använder vi korrelationsmetoder för att avgöra hur starkt varje socio-ekonomisk faktor är kopplad till denna politiska preferens. Detta ger oss ett mått på hur mycket faktorer som utbildning, yrkesstatus, ålder, etnisk bakgrund och andra demografiska faktorer kan förklara stöd för ett politiskt beslut som Brexit.

Efter att ha omvandlat och sammanställt dessa variabler används en visualiseringsteknik, till exempel ett parallell-koordinatsdiagram, för att presentera data på ett sätt som tydligt belyser hur extrema områden (dvs. de med extremt höga eller låga nivåer av "Leave"-stödet) skiljer sig åt i sina socio-ekonomiska profileringar. Detta gör det möjligt att visuellt identifiera mönster och lokala skillnader som annars skulle vara svåra att upptäcka.

Vidare användes en metod för att identifiera och markera extrema områden, baserat på den decilgrupp där varje observations "Leave"-beteende hamnar. Genom att skapa en ny variabel för att indikera om en observation tillhör ett extremt decil, kan vi fokusera på de områden som står för de mest markanta exemplen av social och politisk divergens. Dessa områden får sedan en särskild uppmärksamhet i diagrammen och analyserna.

För att ytterligare nyansera resultatet av visualiseringarna, används färgkoder för att särskilja de två huvudsakliga politiska grupperna, "Leave" och "Remain". Genom att använda en färgskala kan vi också belysa skillnader i fördelningen av faktorer som inkomstnivåer, utbildning och boendeformer. Denna färgkodning hjälper till att framhäva hur dessa faktorer samverkar och kan ge en tydlig bild av vad som påverkar politiska beslut i olika delar av landet.

När vi ser på de specifika resultaten från analysen blir det klart att vissa områden uppvisar extremt höga eller låga nivåer av "Leave"-beteende. Genom att identifiera dessa områden, som Bexleyheath, Havering, och Barking och Dagenham, kan vi börja utforska de bakomliggande orsakerna till deras exceptionella politiska preferenser. Dessa områden har ofta mycket homogena socio-ekonomiska profiler, vilket kan förklara deras starka stöd för ett politiskt beslut som har potential att förändra det europeiska landskapet på djupet.

Vad som också framgår är vikten av att ta hänsyn till både de lokala ekonomiska och sociala förhållandena när man analyserar politiska rörelser. Det räcker inte att bara titta på övergripande trender; vi måste förstå de lokala nyanserna och skillnaderna för att verkligen förstå varför vissa områden röstar på ett visst sätt.

Det är också avgörande att se hur dessa analyser kan användas för att förutse framtida politiska trender eller förstå hur andra politiska rörelser kan påverkas av socio-ekonomiska faktorer på regional nivå. Genom att använda datadrivna metoder och visualiseringar som parallell-koordinatsdiagram, kan vi skapa en mer detaljerad och exakt bild av hur politiska beslut fattas i olika delar av landet.

Hur påverkar socioekonomiska faktorer cyklisters säkerhet?

Cykling som transportmedel är inte bara ett hållbart och miljövänligt alternativ, utan också en aktivitet som i allt större utsträckning uppmärksammas i stadsplanering och trafiksäkerhetsdebatt. Tyvärr är säkerheten för cyklister inte jämt fördelad, och detta beror till stor del på socioekonomiska faktorer som bostadsdeprivation. En nyligen genomförd studie i England, som undersöker risken för cykelolyckor i relation till olika socioekonomiska nivåer, belyser dessa ojämnheter på ett konkret sätt.

Studien, publicerad i Journal of Transport & Health, undersöker hur cykelolyckor är kopplade till olika nivåer av bostadsdeprivation i England. Det visade sig att personer som bor i mer socioekonomiskt utsatta områden löper en högre risk att drabbas av cykelolyckor. Detta fenomen kan förklaras genom flera faktorer. För det första är infrastrukturen i dessa områden ofta sämre utvecklad för cyklister, vilket gör att de måste dela väg med motorfordon, vilket ökar risken för olyckor. Därtill kommer att områden med högre nivåer av deprivation ofta har fler riskfaktorer såsom tätare trafik, fler industrizoner och sämre belysning på vägarna.

En annan viktig aspekt som studien tar upp är att cyklister i socioekonomiskt svaga områden ofta saknar tillgång till säkerhetsutrustning och utbildning. Cykelvägar är sällan prioriterade i dessa områden, och de cyklister som bor där är mer benägna att använda gamla eller dåligt underhållna cyklar, vilket ytterligare ökar risken för olyckor. Denna grupp har också ofta mindre kunskap om trafiksäkerhet, vilket gör dem mer sårbara i trafiken.

Däremot, i mer välbärgade områden, där det finns ett större fokus på cykelsäkerhet och infrastruktur, är risken för olyckor avsevärt lägre. Här prioriteras separata cykelbanor, belysning och säkerhetskampanjer, vilket gör cykling till ett säkrare alternativ. Enligt studien är det tydligt att det finns ett direkt samband mellan sociala faktorer som inkomstnivå och bostadsstandard och cyklisters säkerhet.

För att förändra denna situation måste vi först och främst se över hur städer och samhällen planeras. Det krävs en medveten satsning på att bygga en infrastruktur som är säker för alla, oavsett socioekonomisk bakgrund. Därför är det inte bara viktigt att utveckla fysisk infrastruktur, utan också att tillhandahålla utbildning och information om trafiksäkerhet till de som lever i mer utsatta områden. En medveten policy för att minska ojämlikheten i cykelsäkerhet kan bidra till att skydda de mest utsatta grupperna och främja en mer jämlik och hållbar stadsutveckling.

Det är också viktigt att förstå att cykelsäkerhet inte bara handlar om infrastrukturen. En del av problemet ligger i den bristande medvetenheten om de faktorer som påverkar cyklisters säkerhet. Till exempel spelar inte bara vägarnas utformning roll, utan även trafikanternas attityder gentemot cyklister. Föreställningar om cyklister som andra klassens trafikanter påverkar hur de behandlas av bilister och andra trafikanter. Att förändra dessa attityder och skapa en kultur av respekt på vägarna är en viktig del av lösningen.

Det är också centralt att förstå de långsiktiga effekterna av denna ojämna säkerhet. När vissa grupper av cyklister, särskilt de i socioekonomiskt utsatta områden, löper större risk för olyckor, kan detta leda till en ond cirkel av hälsoproblem och ökade kostnader för samhället. De som drabbas av allvarliga skador kanske inte har råd med den vård de behöver, vilket leder till ytterligare sociala och ekonomiska problem. På samma sätt kan högre olycksrisken avskräcka människor från att cykla alls, vilket minskar tillgången till denna hälsosamma och miljövänliga transportform.

Studien understryker också vikten av datainsamling och analys för att förstå och åtgärda dessa problem. Genom att använda statistiska verktyg och analysmetoder kan man bättre förstå var olyckorna inträffar, vilka grupper som drabbas hårdast och hur man kan anpassa politiska åtgärder för att minska riskerna. En viktig metod för detta är användningen av geospatiala data och kartläggning av cykelolyckor för att identifiera riskområden och utveckla specifika lösningar för dessa.

För att effektivt minska cykelolyckor på socioekonomiskt utsatta platser behöver samhället vidta åtgärder på flera nivåer. Dessa inkluderar förbättring av infrastrukturen, ökad cykelutbildning, informationsspridning och förändring av attityder mot cyklister i trafiken. När alla dessa faktorer beaktas kan vi skapa en säkrare och mer jämlik miljö för cyklister över hela landet.