Tässä luvussa käsitellään eräitä keskeisiä tekniikoita, jotka liittyvät datan tuomiseen, kuvaukseen, muokkaamiseen ja siivoamiseen New Yorkin Citibike-jakeluverkoston tietojen avulla. Näiden toimintojen hallinta on olennainen osa tehokasta tietoanalyysia, ja esimerkin avulla pyritään selittämään tekniikoita, jotka helpottavat datan käsittelyä ja analysointia.

Ensimmäinen askel on ladata tarvittavat tiedostot ja avata projektit RStudio-ympäristössä. Esimerkiksi 02-template.qmd-tiedoston lataaminen ja avaaminen RStudioon auttaa ymmärtämään käytettävien R-pakettien, kuten tidyverse, fst, lubridate ja sf, konfigurointia. Tämä luo perustan datan käsittelylle ja mahdollistaa analyysin eri vaiheiden tarkastelun. Datan lataaminen Citibiken pyöräjakeluverkostosta ja sen valmistelu analysoitavaksi on keskeinen osa prosessia, ja se voi sisältää haasteita kuten puuttuvien arvojen käsittelyn tai datan eri tyyppeihin kohdistuvat muokkaukset.

Datan järjestäminen siistiksi ja "tidy" (Wickham, 2014) on toinen tärkeä periaate, joka helpottaa sen käsittelyä. Siisti data tarkoittaa, että jokainen muuttuja on omassa sarakkeessaan, havainnot ovat riveillä ja jokaisella taululla on oma havaintoyksikkönsä. Tämä rakenne mahdollistaa tehokkaan datan muokkauksen, sillä eri vaiheiden käsittely voidaan automatisoida ja optimoida. Esimerkiksi R:n vektoroituja toimintoja voidaan käyttää datan muuntamiseen, jolloin prosessi nopeutuu ja virheiden mahdollisuus vähenee.

Erityisesti R:n "fst"-tiedostotyyppi on hyödyllinen suurten tietomassojen käsittelyssä, sillä se nopeuttaa datan lukemista ja kirjoittamista verrattuna perinteisiin CSV-tiedostoihin. Tämä mahdollistaa suuren datan käsittelyn muistissa ilman, että tarvitsee yhdistää ulkoisiin tietokantoihin. Tässä yhteydessä on myös tärkeää huomioida, että vaikka Citibiken data voi olla passiivisesti kerättyä ja siten vähemmän altista sosiaalisen toivottavuuden vinoutumalle, se ei välttämättä edusta koko New Yorkin pyöräilyväestöä tarkasti.

Kun data on ladattu ja siistitty, seuraava askel on sen muokkaaminen ja käsittely dplyr-paketin avulla. Dplyr on keskeinen osa tidyverse-pakettia ja tarjoaa yksinkertaisia tapoja manipuloida tietokehyksiä. Dplyrin avulla voidaan suodattaa rivejä (filter), järjestää niitä (arrange), valita sarakkeita (select), nimetä sarakkeet uudelleen (rename) tai lisätä uusia sarakkeita (mutate). Näiden toimintojen yhdistäminen mahdollistaa datan tehokkaan ja joustavan käsittelyn. Esimerkiksi, jos halutaan laskea pyöräretkien keskimääräiset kestonajat tietyllä alueella, dplyr:llä voidaan helposti suodattaa ja järjestää dataa sekä luoda tarvittavat yhteenvedot.

Tietokehyksien käsittelyssä on tärkeää ymmärtää, että R odottaa aina tietokehyksen palautuvan jokaiselta funktiolta. Tämä tarkoittaa, että tietokehyksiä käsiteltäessä kaikki dplyr-toiminnot on tehtävä johdonmukaisesti ja aina alkuperäisen dataframen päälle. Tämä rakenne auttaa hallitsemaan datan muokkausta ja parantaa analyysien toistettavuutta, sillä samat koodimallit voidaan helposti liittää toisiinsa eri analyysejä varten.

Muista myös, että datan tyypit voivat vaikuttaa merkittävästi analyysin tehokkuuteen. Esimerkiksi aikaleimat tulisi muuttaa oikeaan formaattiin, ja paikkatiedot saattavat vaatia koordinaattien muuntamista tietyksi geometriseksi muodoksi. Näitä muutoksia voidaan hallita erityisesti käyttämällä paketteja kuten lubridate ja sf, jotka tarjoavat työkaluja aikaleimojen ja geospatialisten tietojen käsittelyyn.

Kaikkiaan tämä luku esittelee keskeisiä periaatteita ja työkaluja, jotka auttavat tietojen tuomisessa, käsittelyssä ja analysoinnissa R:llä. R:n ja erityisesti tidyversen käytön avulla voidaan muokata jopa hyvin suuria ja monimutkaisia tietomassoja helposti hallittavaksi ja analysoitavaksi. Datan siistiminen ja muokkaaminen ovat olennaisia vaiheita ennen syvällisempää analyysiä ja visualisointia, ja tämä prosessi on välttämätön kaikkien datatieteilijöiden ja analyytikoiden työkalupakissa.

Miten geospatiaalinen analyysi voi paljastaa liikkumismalleja ja työllisyyseroja kaupungissa?

Geospatiaaliset verkot, erityisesti alkuperän ja määränpään välisten liikennevirtojen tutkiminen, tarjoavat tärkeitä näkökulmia kaupungin sisäisten ja välisten liikkumismallien ymmärtämiseen. Analysoimalla odotettujen ja havaittujen ammatillisten kuljetusten eroja voidaan paljastaa syvempiä sosioekonomisia ja alueellisia eroja, jotka eivät muuten ehkä olisi ilmeisiä. Erityisesti Lontoon kaltaisessa suuressa metropolissa, jossa taloudelliset mahdollisuudet vaihtelevat huomattavasti eri alueiden välillä, voidaan havaita selkeitä malleja ja epätasapainoja ammatillisten ja ei-ammatillisten työntekijöiden liikkumisessa.

Kun tarkastellaan liikennetietoja, erityisesti vuoden 2011 väestönlaskennan työmatkatietoja, voidaan analysoida, kuinka ammattimaiset ja ei-ammattimaiset työntekijät jakautuvat eri Lontoon kaupunginosiin. Tämäntyyppinen analyysi, joka keskittyy alkuperän ja määränpään välisten liikennevirtojen eroihin, voi paljastaa alueellisia ja sosioekonomisia eroja. Esimerkiksi halvemman asumisen kaupunginosista Lontoon itäosassa tulee suurempi osa ei-ammattilaisia, jotka suuntaavat kohti keskikaupungin alueita, joissa työpaikkoja on enemmän. Toisaalta, keskikaupungin kaupunginosista lähtee suhteessa enemmän ammattimaisia työntekijöitä.

Tämän analyysin perustana on useiden erilaisten laskelmien tekeminen. Aluksi lasketaan ammatillisten työpaikkojen osuus koko aineistosta (global_prof), joka antaa käsityksen siitä, kuinka monta työpaikkaa on ammattimaisella sektorilla. Seuraavaksi lasketaan kunkin määränpään kaupunginosan odotettu kuljetusten määrä. Tämä saadaan kertomalla kunkin alkuperän ja määränpään välinen liikenne määrällä työpaikkoja kyseisessä kaupunginosassa ja sitten soveltamalla ammatillisten työpaikkojen osuutta. Kun lasketaan tämä ero todellisen ja odotetun määrän välillä, saadaan selkeämpi kuva siitä, miten eri alueiden työntekijät jakautuvat kaupungissa.

Tässä yhteydessä käytetyt visuaaliset lähestymistavat, kuten matriisipohjaiset näkymät tai OD-kartat, tarjoavat selkeän tavan havainnollistaa ja analysoida näitä liikenteen ja työpaikkojen eroja. Perinteinen verkkoanalyysi, kuten solmu-linkkikaaviot, voivat olla intuitiivisia ja antaa yleiskuvan verkon rakenteesta, mutta ne eivät välttämättä paljasta syvällistä tietoa, kuten tarkkoja liikennevirtojen tai työpaikkojen alueellisia eroja. Matriisipohjaiset lähestymistavat, kuten OD-kartat, voivat sen sijaan tarjota yksityiskohtaisempia tietoja ja paljastaa alueellisia eroja, joita ei muuten olisi helppo havaita.

Lisäksi, kun verkon tiedot ovat monimutkaisempia, visuaaliset lähestymistavat voivat auttaa tarjoamaan paremman yleiskuvan ja ymmärryksen siitä, miten liikenne ja työllisyys jakautuvat eri alueiden välillä. Tällaisella analyysillä voidaan paremmin ymmärtää, miksi tietyt kaupunginosat houkuttelevat enemmän ammatillisia työntekijöitä ja miksi toiset alueet saavat enemmän ei-ammattilaisia.

Yksi suurimmista haasteista geospatiaalisten verkkojen analyysissa on oikean esitystavan valinta. Vaikka solmu-linkkikaaviot voivat tarjota yksinkertaisen visuaalisen esityksen, ne voivat jäädä pinnallisiksi ja jättää huomioimatta monimutkaisempia alueellisia malleja ja eroja. Matriisien käyttö ja OD-kartat sen sijaan mahdollistavat syvällisemmän ja tarkemman analyysin. Näiden työkalujen avulla voidaan myös paremmin ymmärtää, miten kaupunkien liikenneverkot ja työpaikkojen jakautuminen vaikuttavat työllisyyteen ja liikennevirtoihin.

Kokonaisuudessaan, vaikka verkon visualisointi tarjoaa hyödyllisiä työkaluja, on tärkeää valita oikea lähestymistapa ja työkalu analyysiin, jotta voidaan tunnistaa ja ymmärtää kaupungin sisäiset ja välisten liikennevirtojen piirteet. Tällainen syvällinen analyysi ei ainoastaan paljasta piileviä liikennettä ja työllisyyttä koskevia eroja, vaan auttaa myös ymmärtämään laajempia sosioekonomisia ja alueellisia tekijöitä, jotka vaikuttavat ihmisten liikkumiseen ja työpaikkavalintoihin.

Miten demографические факторы влияют на результаты референдума о выходе из ЕС в Великобритании?

Analysoidessamme Yhdistyneen kuningaskunnan vuoden 2016 EU-eron kansanäänestyksen tuloksia, huomaamme merkittäviä alueellisia eroja äänestyskäyttäytymisessä. Vaikka Leave-äänet muodostivat noin 52 % äänistä, äänestyskäyttäytyminen vaihteli huomattavasti eri puolilla maata. Tämän vaihtelun selittäminen on monivaiheinen prosessi, johon sisältyy muun muassa demografiset tekijät, kuten koulutustaso, työmarkkinoiden rakenne ja väestöryhmien osuudet kussakin vaalipiirissä.

Keskeinen kysymys on, miksi tietyt alueet äänestivät eri tavalla kuin toiset. On esitetty useita selityksiä tälle ilmiölle, jotka liittyvät usein kunkin alueen demografiseen koostumukseen. Näiden tekijöiden vaikutus vaihtelee alueittain, ja siksi on tärkeää tarkastella, miten nämä tekijät yhdessä vaikuttavat äänestystuloksiin.

Analyysi alkaa perusmallista, jossa oletetaan, että äänestyskäyttäytyminen on jakautunut tasaisesti koko maahan. Tällöin saamme ennusteen siitä, kuinka paljon kunkin vaalipiirin äänet poikkeavat tästä "keskiarvosta". Kuten kuvassa 6.1, jäljelle jäävät jäännökset (residuaalit) tarjoavat tärkeää tietoa alueellisesta vaihtelusta. Tämä malli ei kuitenkaan ota huomioon alueellisia eroja, kuten Skotlannin ja Lontoon erityispiirteitä, joissa Leave-äänet jäivät selvästi keskiarvon alle. Toisaalta alueet, kuten Boston ja Skegness, äänestivät voimakkaasti Leave-leirin puolesta, ja tämä ilmiö ei ole sattumaa.

Jotta voisimme ymmärtää tarkemmin alueellista vaihtelua, on tärkeää tarkastella alueiden demografista rakennetta. Erityisesti väestön koulutustaso, ammatillinen asema ja etninen koostumus voivat vaikuttaa äänestyskäyttäytymiseen. Esimerkiksi vaalipiirit, joissa on korkea koulutustaso, äänestivät yleensä enemmän Remainin puolesta. Tätä ilmiötä voidaan kuvata regressiomalleilla, joissa analysoidaan kunkin tekijän vaikutusta äänestystuloksiin. Kuvassa 6.2 on esitetty hajontakuvioita, jotka havainnollistavat kunkin tekijän suhteen äänestyskäyttäytymiseen.

Esimerkiksi suurin negatiivinen yhteys löytyy korkeakoulutettujen osuudesta: mitä suurempi osa vaalipiiristä on suorittanut korkeakoulututkinnon, sitä vähemmän todennäköisesti alue äänesti Leave-vaihtoehdon puolesta. Toisaalta alueet, joissa oli korkea osuus EU-kansalaisista, nuoria aikuisia tai joissa ei ollut omaa autoa, äänestivät myös useammin Remainin puolesta. Tällaiset tekijät heijastavat alueen taloudellista rakennetta ja arvomaailmaa, jotka puolestaan vaikuttavat siihen, miten asukkaat suhtautuvat Euroopan unionin jäsenyyteen.

Jäännöksistä havaitaan, että malli aliarvioi Leave-äänet monilla alueilla, ja tietyissä vaalipiireissä poikkeamat ovat merkittäviä. Jäännösten tarkastelu ja niiden mahdollinen korjaaminen auttaa parantamaan mallin ennustekykyä. Tällaisella regressioanalyysillä voidaan selvittää, mitkä demografiset tekijät selittävät suurinta osaa alueellisista eroista ja kuinka hyvin malli pystyy selittämään jäljelle jäävää vaihtelua.

Yksi mielenkiintoinen lisäkysymys on, miten nämä demografiset tekijät muuttuvat ajan myötä. Jos väestön ikärakenne, koulutustaso tai työllisyysprosentit muuttuvat jollain alueella, se saattaa vaikuttaa myös äänestyskäyttäytymiseen tulevissa vaaleissa. Tämä tuo esiin sen, kuinka tärkeää on ymmärtää alueellisten erojen dynamiikkaa pitkällä aikavälillä.

Tässä analyysissä on kuitenkin huomioitava, että vaikka demografiset tekijät selittävät osan alueellisista eroista, ei ole yksiselitteistä selitystä sille, miksi tietyt alueet äänestivät erityisesti Leave- tai Remain-puolelle. Esimerkiksi taloudelliset tekijät, kuten alueen teollistuminen tai globaalistuminen, voivat olla yhtä merkittäviä kuin demografiset tekijät. Siksi on tärkeää tarkastella tätä ilmiötä monista eri näkökulmista ja käyttää useita malleja ja tekniikoita, jotta saamme mahdollisimman kattavan kuvan siitä, mitkä tekijät lopulta selittävät alueellista vaihtelua.

Kuinka epävarmuus ja satunnaisvaihtelu vaikuttavat KSI-lukuun ja mitä se tarkoittaa tilastollisesti?

Kun tarkastellaan KSI-lukuja (Killed or Seriously Injured, kuolleet tai vakavasti loukkaantuneet) eri alueilla, saattaa odottaa, että eroja havaitaan tietyssä suunnassa. Tämä voidaan arvioida luottamusväleillä, jotka on luotu bootstrap-menetelmällä, jossa käytetään 1000 uudelleenotosta. Kuitenkin on tärkeää muistaa, että KSI-luku ei ole vain tilastollinen arvo, vaan se on altis satunnaisvaihtelulle, erityisesti alueilla, joilla havainnot ovat vähäisiä. Esimerkiksi Bromsgroven alueen KSI-luku voi nousta samalle tasolle kuin Bristolissa, mutta tämä ei välttämättä tarkoita, että tilanne olisi todella samankaltainen – epävarmuus on suuri ja johtuu osin satunnaisesta vaihtelusta.

STATS19-tietokanta on laaja väestötason tietokanta, joka sisältää kaikki poliisin rekisteröimät liikenneonnettomuudet, mutta se ei ole täydellinen eikä kaikkiin onnettomuuksiin liity tarkkoja tietoja. Tämän vuoksi, mitä enemmän tietoa meillä on, sitä varmempi voidaan olla KSI-lukuista. Kun KSI-luku johdetaan suuremmasta tietomäärästä, epävarmuus pienenee, mutta alueilla, joissa dataa on vähemmän, kuten Cotswoldissa ja Bromsgrovessa, luku saattaa olla epätarkempi ja vaihdella suuresti. Tässä yhteydessä on tärkeää ymmärtää, että vaikka Cotswoldin KSI-luku saattaa näyttää suurilta, se voi silti olla huomattavasti pienempi tai suurempi kuin todellinen luku, ja tämän epävarmuuden ottaminen huomioon on välttämätöntä.

Tarkasteltaessa epävarmuuden visualisointia, kuten kuvassa 7.6, käytetään virhebaareja, jotka ovat tehokkaita tilastollisen epävarmuuden esittämisessä. Kuitenkin virhebaareihin liittyy ongelmia: niiden kovia rajoja tulkitaan helposti binäärisesti – joko onnettomuuden vakavuus on korkea tai ei. Tämä voi johtaa virheellisiin päätelmiin, sillä kaikki arvot luottamusvälin sisällä eivät ole yhtä todennäköisiä. On olennaista käyttää visuaalisia esityksiä, jotka heijastavat epävarmuuden astetta ja antavat suuremman painoarvon todennäköisemmille arvoille. Matt Kayn ggdist-paketti on esimerkki työkalusta, joka tuo tämän idean eloon visuaalisesti. Esimerkiksi puolikkaat silmät (half eye plots) ja gradienttikaaviot, kuten kuvassa 7.7, tekevät todennäköisistä KSI-arvoista näkyvämpiä ja intuitiivisempia.

On myös hyödyllistä tutkia KSI-lukuja vuosittain, koska suuret epävarmuusvälin arvot voivat kertoa, että tietyillä alueilla KSI-luvut voivat vaihdella merkittävästi vuodesta toiseen. Tämä on erityisen tärkeää alueilla, kuten Cotswoldissa, jossa pienen aineiston takia KSI-luku voi heittelehtiä suuresti. Toisaalta Sheffieldin lisääntynyt KSI-luku vuodesta 2015 vaikuttaa olevan todellinen muutos, vaikka siihen voi myös vaikuttaa epävarmuus tietojen keruussa ja vamma-asteen luotettavuudessa.

Kun tarkastellaan tilastollisia vertailuja useiden alueiden välillä, on tärkeää huomata, että KSI-lukuja verrattaessa on usein käytetty Riskisuhteita (Risk Ratios, RR), jotka vertaavat kunkin alueen loukkaantumisasteen vakavuutta kansalliseen keskiarvoon. RR-arvot yli 1,0 osoittavat korkeamman vakavuuden kuin kansallinen keskiarvo, ja alle 1,0 alhaisemman. Tämä on intuitiivinen tapa esittää vaikutuskokoa. Kuitenkin, koska nämä vertailut voivat olla epätarkkoja erityisesti alueilla, joilla on pieni otos, on tärkeää käyttää korjattuja mittareita, kuten Bayesin Riskisuhteita (Bayesian Risk Ratios, BRR). BRR-arvot voivat huomioida otoskoon epävarmuuden ja tarjota konservatiivisemman arvion, erityisesti alueilla, joissa on vain vähän havaintoja.

Esimerkiksi kuvassa 7.10 käytetyt Bayesin Riskisuhteet osoittavat, että pienillä otoksilla saatujen KSI-lukujen epävarmuus voi vaikuttaa suuresti tulosten tulkintaan. Tässä käytetään bootstrap-uudelleensamplingia luottamusvälin laskemiseen, mikä auttaa arvioimaan, onko havaittu ero tilastollisesti merkitsevä. Jos luottamusväli ei kata arvoa 1.0, voidaan tulos pitää tilastollisesti merkittävänä. Tämä voi kuitenkin johtaa ongelmaan, jota kutsutaan useiden vertailujen ongelmaksi (multiple comparison problem), mikä tarkoittaa, että kun vertaillaan useita alueita, voi sattuma tuottaa näyttäviä tuloksia, jotka eivät ole tilastollisesti merkittäviä.

Tämän vuoksi on olennaista ymmärtää, että vaikka tilastolliset välineet, kuten Riskisuhteet ja Bayesin Riskisuhteet, tarjoavat arvokasta tietoa, ne eivät ole täydellisiä. Ne voivat antaa väärän kuvan alueen liikenneturvallisuuden todellisesta tilasta, jos otoskoko on liian pieni tai jos alueella tapahtuu suuria vaihteluita satunnaisesti. Tämän vuoksi on tärkeää käyttää tilastollisia malleja, jotka huomioivat epävarmuuden ja tarjoavat konservatiivisempia arvioita, jotta vältetään virheelliset johtopäätökset.