Dplyr-paketin käyttö tiedon esikäsittelyssä on olennainen osa ggplot2:lla luotujen visualisointien rakentamista. Koodin avulla luodaan vaiheistettu tietojoukko, jossa havaittuja arvoja tarkastellaan suhteessa odotettuihin arvoihin. Aluksi käsitellään peruskomponentit, kuten "observed" (havainnoitu) ja "expected" (odotettu) arvot. Näiden laskeminen tapahtuu ryhmittelyn ja marginaalien laskemisen kautta, jolloin saamme kunkin solun odotetut arvot suhteessa koko aineistoon. Tässä prosessissa käytetään erilaisia ryhmittelymenetelmiä kuten group_by() ja mutate(), jotka yhdessä luovat täydellisen datan visualisointia varten.

Tässä koodissa aluksi luodaan muuttuja grand_total, joka laskee kaikkien havaintojen kokonaismäärän. Sitten ryhmitellään data kuljettajan ja uhriin liittyvien kvintilien mukaan. mutate() funktio laskee kunkin ryhmän rivisumman ja sarakesumman. Jäljelle jäävät komponentit, kuten odotetut arvot ja residuaalit (poikkeamat), lasketaan näiden tietojen pohjalta. Jäännösten laskemiseksi käytetään kaavaa, jossa lasketaan kuinka paljon havaittu arvo poikkeaa odotetusta arvosta suhteessa sen neliöjuureen. Näin saamme kuvan siitä, kuinka paljon poikkeamia esiintyy eri ryhmien välillä.

Tämän jälkeen voimme luoda lämpökartan, joka havainnollistaa jäännöksiä. geom_tile() funktio piirtää yksittäiset solut, ja scale_fill_distiller() määrittelee värit, jotka ilmentävät jäännösten suuruutta. Väriskaala on keskitetty nollaan, jolloin voidaan helposti tunnistaa suurimmat poikkeamat. Lämpökartan avulla voidaan visuaalisesti tarkastella, kuinka eri tekijät, kuten kuljettajan ja uhrin ominaisuudet, vaikuttavat onnettomuuksien määrään eri alueilla.

Tässä vaiheessa on tärkeää huomioida, että sekoittava tekijä, kuten onnettomuuden tapahtumapaikan sosioekonominen tausta, ei ollut aiemmin huomioitu. Tämä voi olla merkittävä tekijä, sillä tutkimus on osoittanut, että onnettomuuksien määrä kasvaa erityisesti alueilla, joilla on korkea köyhyysaste. Voimme tarkastella tätä osaa tarkemmin ryhmittelemällä havainnot alueen sosioekonomisen tason mukaan ja luomalla uusi muuttuja, joka mittaa "geodemografista etäisyyttä" kuljettajan, uhrin ja onnettomuuden tapahtumapaikan välillä. Tämän avulla voimme tutkia, kuinka suuri vaikutus on tällä etäisyydellä onnettomuuksien määrään.

Analyysin seuraava vaihe liittyy regressiomallin luomiseen, jossa onnettomuuksien määrä mallinnetaan geodemografisen etäisyyden funktiona. Vaikka malli saattaa tuntua monimutkaiselta, keskeistä on tarkastella jäännöksiä ja poikkeamia, jotka paljastavat, kuinka paljon poikkeavat onnettomuudet ovat tietyissä ryhmissä ja alueilla. Tämä mahdollistaa sen, että voidaan tutkia, kuinka onnettomuudet vaihtelevat sen mukaan, kuinka erilaista on kuljettajien ja uhrien tausta verrattuna onnettomuuspaikan sosioekonomiseen asemaan.

Havainnoista nousee esiin tärkeitä ilmiöitä, kuten se, että erityisesti vähiten varakkailla alueilla asuvat jalankulkijat ovat alttiimpia onnettomuuksille, vaikka onnettomuudet eivät näy niin voimakkaasti muilla alueilla. Tämä kertoo siitä, kuinka monivaiheinen ja monisyinen ilmiö onnettomuudet ja niiden taustat ovat. Mielenkiintoinen havainto on, että vaikka suurin osa onnettomuuksista keskittyy köyhimpiin alueisiin, on olemassa poikkeuksia, joissa vähemmän köyhillä alueilla kuljettajat tekevät enemmän onnettomuuksia tietyissä paikoissa.

Visualisointien avulla saamme arvokasta tietoa siitä, mitkä tekijät vaikuttavat eniten onnettomuuksien määrään ja kuinka nämä tekijät yhdistyvät. Tämä analyysi tuo esiin sosiodemografian ja paikkatiedon merkityksen onnettomuuksien ennakoimisessa ja auttamisessa.

Tärkeää on huomata, että data-analyysi ja visualisointi eivät ole vain keinoja esittää tietoa, vaan ne voivat myös tuoda esiin sellaisia piirteitä, jotka muuten voisivat jäädä huomaamatta. Eri alueiden ja ryhmien eroavaisuuksia on usein vaikea nähdä ilman syvällistä ja huolellista analyysiä. Tätä lähestymistapaa käyttämällä voidaan rakentaa tehokkaita strategioita onnettomuuksien vähentämiseksi ja ennaltaehkäisemiseksi eri väestöryhmissä.

Miten työllisyys ja liikkumisen maantiede vaihtelevat Lontoon alueilla?

Tässä luvussa käsittelemme Lontoon alueiden työmatkaliikenteen tilastollista analyysiä, erityisesti kuinka liikenteen maantiede eroaa eri ammattiluokkien välillä. Tavoitteena on luoda visuaalinen esitys, joka paljastaa alueiden välisiä yhteyksiä ja maantieteellistä rakennetta, erityisesti kuinka eri ammatit vaikuttavat matkustajavirtoihin Lontoon kaupunginosissa. Analyysi perustuu Lontoon vuoden 2011 väestönlaskennan työmatkaliikennetietoihin, joita käsitellään graafisesti ja tilastollisesti hyödyntäen R-ohjelmointikieltä.

Lontoon työmatkaliikenteen tietoihin perustuva analyysi alkaa aineiston tuomisella ja sen jäsentämisellä graafisiin esityksiin. Tämä aineisto sisältää kaikki Lontoon alueet ja niiden väliset liikenteen virrat eri ammattiluokissa. Lontoon kaupunginosat muodostavat verkon solmut (nodes), ja niiden väliset liikennemäärät muodostavat verkon reunat (edges). Solmuja on yhteensä 33, ja nämä solmut yhdistyvät toisiinsa työmatkaliikenteen virtojen kautta, jotka jakautuvat alkuperäisiin ja kohteisiin liittyviin alueisiin.

Aineisto jaetaan kahteen pääryhmään: alkuperäalueet (origins) ja kohdealueet (destinations), jotka edustavat työpaikkojen sijainteja ja asuinalueiden sijainteja. Tämä jaottelu perustuu työpaikan ja asuinpaikan eroon ja näiden välisiin liikennemääriin. Esimerkiksi, jos työmatkustaja asuu Barnetissa ja työskentelee Westminsterissä, tämä muodostaa yhden OD (origin-destination) parin, jonka liikennemäärä voidaan laskea ja analysoida. Tämä data voidaan visualisoida kartalla, jossa näkyy, kuinka työmatkaliikenne kulkee eri alueiden välillä.

Yksi keskeisistä kysymyksistä tässä analyysissä on se, kuinka erilaiset ammattiluokat vaikuttavat työmatkaliikenteen maantieteellisiin malleihin. Työntekijät, jotka työskentelevät eri ammattiryhmissä, saattavat matkustaa eri tavoin tai eri alueilla, mikä tuo esiin tärkeitä eroja työmatkaliikenteen rakenteessa. Esimerkiksi johtajat ja asiantuntijat voivat valita työpaikkansa ja asuinpaikkansa eri perusteilla kuin vähemmän koulutetut tai matalapalkkaiset työntekijät.

Tämän tiedon avulla voidaan luoda geospatiaalisia graafeja, jotka kuvaavat kuinka eri työmatkustajat liikkuvat alueelta toiselle ja kuinka eri ammattiryhmien välillä on eroja. Geospatiaaliset järjestelmät, kuten R:n gridmappr-paketti, mahdollistavat kartan luomisen, jossa alueet on järjestetty ruudukkoon, ja työmatkavirrat näkyvät selkeästi visuaalisessa muodossa. Tämän avulla voidaan nähdä, kuinka tiheästi tai harvakseen työmatkustajat liikkuvat tiettyjen alueiden välillä, ja kuinka nämä liikennevirrat jakaantuvat eri ammattiryhmien kesken.

Tässä yhteydessä on myös tärkeää huomioida, että kartan laatimisen jälkeen voidaan tutkia, miten työmatkustajien siirtymät geospatiaalisessa tilassa eroavat, jos alueet asetetaan ruudukkoon ja vertaillaan todellista ja ruudukkoon sijoitettua maantieteellistä sijaintia. Tämä tuo esiin mahdollisia vääristymiä ja tarjoaa mahdollisuuden optimoida työmatkustajien reittejä ja alueiden liikennejärjestelmiä.

Tämän analyysin avulla voidaan luoda tarkempia malleja siitä, kuinka työmatkaliikenne jakautuu ja miten eri ammattiluokkien liikennevirrat vaikuttavat kaupungin liikenneinfrastruktuuriin. Tiedon visualisointi auttaa ymmärtämään, kuinka eri alueet ovat yhteydessä toisiinsa ja kuinka työmatkustajat voivat tehokkaimmin liikkua Lontoossa.

Miten maantieteellinen konteksti vaikuttaa Leave-äänestystuloksiin?

Regionaalinen variaatio ja demografinen koostumus ovat keskeisiä tekijöitä, jotka muokkaavat äänestystuloksia, kuten Brexitin Leave-äänestystä. Monet äänestäjät tekevät päätöksensä alueellisten erojen perusteella, jotka voivat vaikuttaa siihen, kuinka tietyt demografiset muuttujat liittyvät äänestystuloksiin. Yksi tärkeimmistä havainnoista on, että vaikka demografiset tekijät, kuten koulutustaso ja etninen koostumus, vaikuttavat äänestykseen, niiden vaikutukset voivat olla hyvinkin erilaisia eri alueilla.

Erityisesti, kun tarkastellaan "valkoista" väestöä, aiempi tutkimus osoitti hieman yllättävän negatiivisen yhteyden Leave-äänestykseen, mutta tämän tarkemman analyysin jälkeen havaittiin, että valkoisen väestön osuus alueilla on itse asiassa positiivisesti yhteydessä Leave-voteen. Toisin sanoen, alueilla, joissa valkoinen väestö on suurempi, taipumus äänestää Leave puolesta on voimakkaampi, kun otetaan huomioon muiden demografisten tekijöiden vaikutus.

EU:ssa syntyneiden osalta tilanne on monimutkaisempi. Vaikka ennakoimme, että EU-syntyiset olisivat vähemmän todennäköisesti Leave-äänestäjiä, monilla alueilla tämä muuttuja on yllättäen positiivisesti yhteydessä Leave-äänestykseen, mikä viittaa siihen, että EU:ssa syntyneet äänestäjät voivat kokea voimakasta halua pysyä EU:ssa, mutta tämä suhde ei ole yhtä ilmeinen kaikilla alueilla.

Alueellinen ero on huomattava, ja tähän liittyy myös geograafisten tekijöiden vaikutus. Esimerkiksi Skotlannissa ja Lontoossa äänestettiin huomattavasti vähemmän Leave-puolelle verrattuna muuhun maahan. Jos kuitenkin vertaamme kahta alueellisesti samanlaista vaalipiiriä – toista Lontoossa ja toista Pohjois-Lännessä – voimme huomata, että Lontoossa Leave-äänestys oli keskimäärin noin 60 %, kun taas Pohjois-Lännessä vastaava luku oli vain noin 51 %. Tämä kertoo meille, että vaikka demografiset tekijät ovat keskeisiä, alueelliset tekijät voivat aiheuttaa merkittäviä eroja, ja jopa samankaltaiset alueet voivat poiketa toisistaan huomattavasti, kun niitä tarkastellaan erikseen.

Tällöin tavanomaiset lineaariset regressiomallit, joissa vain vakioerot vaihtelevat alueittain, eivät riitä selittämään kaikkia ilmiöitä. Uudemmat lähestymistavat, kuten vuorovaikutustermien lisääminen, mahdollistavat alueellisten vaihteluiden paremman ymmärtämisen. Tämä mahdollistaa sen, että voimme tarkastella kunkin alueen erityispiirteitä erikseen ja huomioida, kuinka jokainen demografinen tekijä vaikuttaa Leave-äänestykseen tietyssä alueessa. Tällöin malli saa erilliset vakioerot ja kertoimet kullekin alueelle, mikä mahdollistaa entistä tarkempien ennusteiden tekemisen.

Tarkempi analyysi paljastaa, että esimerkiksi Lontoossa teollisuuden merkitys Leave-äänestykselle on voimakkaampi kuin monilla muilla alueilla. Pohjois-Lännessä ja Walesissa vastaavat tekijät vaikuttavat vähemmän voimakkaasti. Samoin EU:ssa syntyneiden osuus vaihtelee eri alueilla: pohjoisessa ja lännessä tämä tekijä saattaa olla positiivisesti yhteydessä Leave-äänestykseen, kun taas etelässä ja Skotlannissa se voi kääntyä negatiiviseksi.

Tällaiset alueelliset erot voivat selittää suuria vaihteluita siinä, kuinka tietyt demografiset ryhmät käyttäytyvät äänestyksissä eri puolilla maata. Tämä on erityisen tärkeää ymmärtää, kun analysoidaan, miksi eri alueet voivat tukea eri puolueita tai poliittisia liikkeitä riippuen niiden demografisesta koostumuksesta.

On tärkeää huomata, että yksinkertainen alueellisten muuttujien tarkastelu ei ole ainoa mahdollinen lähestymistapa. Muitakin menetelmiä, kuten hierarkkinen mallinnus tai monitasomallinnus, voidaan käyttää tehokkaammin alueellisten eroavaisuuksien ymmärtämiseen. Näissä malleissa otetaan huomioon se, että tietyillä alueilla voi olla vähemmän havaintoja, jolloin malli lainaa tietoa muilta alueilta ja voi tehdä ennusteista tasaisempia ja vähemmän paikallisesti vinoutuneita.

Geografisesti painotettu regressio (GWR) on toinen kiinnostava lähestymistapa, joka sallii paikallisten regressiokertoimien arvioimisen erikseen kullekin alueelle. Tämä menetelmä voi tarjota syvällisempää ymmärrystä siitä, kuinka alueelliset tekijät vaikuttavat äänestyspäätöksiin, ja se on erityisen hyödyllinen, kun tarkastellaan suuria alueellisia eroja.

Yhteenvetona voidaan todeta, että Brexitin kaltaiset monimutkaiset poliittiset päätökset eivät ole yksinomaan demografisten tekijöiden tulosta. Ne ovat vahvasti sidoksissa myös alueellisiin eroihin, jotka voivat muokata äänestyskäyttäytymistä tietyillä alueilla eri tavalla kuin muilla. Siksi on olennaista ottaa huomioon sekä demografiset että maantieteelliset tekijät, jotta voimme ymmärtää, miksi tietyt alueet äänestivät tietyllä tavalla ja miten nämä alueelliset eroavaisuudet voivat vaikuttaa politiikan suuntaan tulevaisuudessa.

Miten visualisoidaan COVID-19-tapausten kasvua Yhdysvalloissa kartalla ja lisätä merkintöjä ja tarkennuksia

Karttakuvia ja graafisia esityksiä käytetään yhä enemmän tietojen analysoinnissa ja esittämisessä, erityisesti pandemioiden kaltaisten globaaliin mittakaavaan vaikuttavien ilmiöiden yhteydessä. Erityisesti COVID-19-pandemian aikana visualisoinnit auttoivat ymmärtämään tartuntojen leviämistä eri alueilla ja antavat mahdollisuuden tuoda esille alueellisia eroja. Tässä esityksessä tarkastellaan, kuinka visualisoida COVID-19-tapausten kasvua Yhdysvalloissa käyttäen paikkatietoa ja tilastotietoja, ja kuinka lisätä siihen merkintöjä ja selkeyttää esityksiä.

Tämän työn pohjana käytetään tietoja, jotka on kerätty New York Timesin julkaiseman datasetin perusteella, joka sisältää Yhdysvaltojen piirikuntien tason COVID-19-tapausten määrät. Aineistoa käsitellään R-kielessä käyttäen vis4sds-projektia ja valmista "template"-tiedostoa, joka ohjaa analyysin ja visualisoinnin prosessia. Tietojen esittämiseen käytetään R:n ggplot2-pakettia, jonka avulla voidaan luoda monimutkaisempia karttoja ja kaavioita, jotka havainnollistavat tartuntatilanteen kehitystä.

Esityksessä käytettävä aineisto koostuu piirikuntien keskikohdista, ja tartuntatilastot on esitetty päivittäisinä kasvuvauhteina. Tässä yhteydessä on tärkeää ymmärtää, että visualisoinnin tavoite ei ole pelkästään absoluuttisten tapauslukujen esittäminen, vaan kasvu- ja leviämisvauhtien tarkastelu, erityisesti alueilla, joissa kasvuvauhti on ollut poikkeuksellista. Piirikunnat, joilla kasvu oli suurinta, eivät välttämättä ole niitä, joissa oli suurimmat tapausmäärät, vaan ne, jotka ovat kokeneet suurimman kasvuprosentin alkaen 3. toukokuuta.

Graafinen esitys keskittyy kasvuvauhtien ja tartuntaprosenttien vertailuun, ja sen tarkoituksena on osoittaa, mitkä alueet ovat erityisen haavoittuvia ja minkälaiset kehityskulut voivat odottaa niitä. Tämä käy ilmi erityisesti graafista tarkasteltaessa: tummat ja paksut viivat viittaavat nopeaan kasvuun ja korkeisiin tartuntalukuun, kun taas vaaleammat ja ohuemmat viivat edustavat alueita, joissa kasvu on ollut maltillisempaa. Tässä visuaalisessa mallissa tilastojen tulkinta perustuu paitsi numeerisiin arvoihin myös visuaalisiin tekijöihin, kuten viivojen paksuuteen, väriin ja läpinäkyvyyteen.

Kun tarkastellaan kasvualueita, voidaan huomata, että tilastollinen autokorrelaatio alueiden välillä voi paljastaa laajempia trendejä ja auttaa hahmottamaan tartuntojen leviämistä. Tämä tarkoittaa, että vaikka yksittäisten piirikuntien tarkastelu saattaa paljastaa poikkeuksia, suuret alueet voivat antaa viitteitä siitä, miten pandemian vaikutukset ovat levinneet.

Visualisoinnin täydentämiseksi voidaan lisätä valtionrajojen ja osavaltioiden tunnistuksia. Tätä varten R:n geom_sf-funktio piirtää kartalle valtionrajat, ja geom_text-funktiota voidaan käyttää osavaltioiden lyhenteiden lisäämiseen. Tämä lisäys ei ole vain visuaalinen parannus, vaan myös käytännön apuväline, sillä se auttaa lukijaa tunnistamaan alueet kartalta helpommin ja ymmärtämään, mihin tarkalleen ottaen data viittaa. Erityisesti monimutkaisilla kartoilla, joissa on paljon tietoa, tällaisten selitteiden lisääminen voi parantaa graafien luettavuutta ja hyödyllisyyttä.

Tarkempien analyysien ja visuaalisten elementtien lisääminen saattaa myös olla tarpeen. Esimerkiksi voisi olla hyödyllistä tarkastella, miten paikkatietojen kartoitus vaikuttaa eri alueiden COVID-19-kasvuun ja millaisia alueellisia eroja on olemassa. Eri tilastolliset testit voivat paljastaa, onko kasvu erityisesti keskittynyt tietyille alueille, mikä voisi auttaa ohjaamaan terveysviranomaisten toimenpiteitä ja päätöksentekoa.

Tässä yhteydessä on tärkeää muistaa, että vaikka visuaaliset esitykset tarjoavat arvokkaita näkökulmia, ne eivät ole itsessään täydellisiä. Karttojen ja kaavioiden tulkinta edellyttää kriittistä ajattelua ja asiantuntemusta siitä, mitä tietyt visuaaliset elementit todella kertovat. Esimerkiksi viivojen paksuuden ja värin vaikutus voi olla hämmentävää ilman oikeaa kontekstia ja selityksiä.

Karttavisualisoinnit, jotka näyttävät päivittäisiä kasvuasteita, voivat myös olla oikukkaita, jos ne eivät ole kunnolla suodatettuja tai jos niissä ei ole otettu huomioon datan epätarkkuuksia. Siksi on tärkeää käyttää huolellisesti laadittuja datafiltrejä ja muokata graafien esitystapaa siten, että tärkeimmät piirteet saadaan näkyville ilman, että merkityksettömät tiedot peittävät olennaista tietoa.

Tarkempaa analyysiä varten on hyvä myös tutkia, miten muut muuttujat, kuten väestötiheys tai alueelliset terveyserot, voivat vaikuttaa kasvuun ja leviämiseen. Lisäksi voidaan käyttää muita datan visualisointitekniikoita, kuten lämpökarttoja tai pilvikarttoja, jotka voivat täydentää tavanomaista alueellista esitystä ja auttaa näkemään laajempia trendejä.