Relaatiotietokannoissa ja dplyr-kirjaston funktioissa käytettävät yhdistämismenetelmät ovat tärkeitä, kun käsitellään suuria tietomääriä, kuten pyöräilymatkojen dataa. Yksi keskeinen toimenpide on vasemmanpuoleinen yhdistäminen (left_join), joka säilyttää kaikki arvot vasemman taulukon riviltä ja lisää oikean taulukon muuttujat valitulla yhdistämisavaimella. Tämän avulla voidaan yhdistää pyöräasemien tiedot pyöräilymatkojen tietoihin, mikä mahdollistaa matkojen alku- ja loppupisteiden analysoinnin. Esimerkiksi New Yorkin pyöräilymatkojen tiedoissa voimme käyttää ny_trips-taulukkoa, jossa on pyöräasemien alku- ja loppupisteet, sekä ny_stations-taulukkoa, jossa on aseman sijaintitiedot (pituus- ja leveysasteet). Yhdistämällä nämä tiedot voimme laskea suorat etäisyydet eri asemiin ja tarkastella matkojen pituuksia.

Etäisyydet, jotka lasketaan suoraan aseman koordinaateista, voivat antaa vain karkean kuvan pyöräilijöiden reiteistä. Idealistisemmin etäisyydet laskettaisiin pyöräilijöiden liikkeiden perusteella, mutta suorat etäisyydet tarjoavat silti hyödyllistä tietoa. Esimerkiksi 500 000 näytteestä laskettu keskimääräinen matkan pituus on 1,6 kilometriä. Tämä saattaa vaikuttaa lyhyeltä, mutta on tärkeää muistaa, että kyseessä ovat suorat etäisyydet aseman välillä. Jos kuitenkin otettaisiin huomioon pyöräilijöiden todelliset kulkureitit, tämä luku saattaisi olla huomattavasti pidempi.

Erityisesti suuri osa matkoista, jotka alkavat ja päättyvät samaan pyöräasemaan, saattaa viitata epäonnistuneisiin vuokrahimoihin, kuten pyörän irrottamisen epäonnistumiseen. Tätä ilmiötä voi tutkia tarkemmin tarkastelemalla, millä asemilla samat alku- ja loppupisteet esiintyvät. Tämä analyysi auttaa tunnistamaan paikkoja, joissa pyörän irrottaminen on yleisesti ottaen ongelmallista.

Esimerkiksi voidaan tarkastella niitä asemia, joilla alku- ja loppupisteet ovat samat ja ryhmitellä ne asteittain aseman mukaan. Tällöin voidaan havaita, että monet epäonnistuneet matkat keskittyvät tietyille asemapaikoille, kuten puistoihin tai jokivarsille. Samat alku- ja loppupisteet voivat olla tyypillisempiä satunnaisten käyttäjien (Customer) kuin säännöllisten käyttäjien (Subscriber) matkoissa, mikä viittaa siihen, että satunnaiset käyttäjät saattavat käyttää pyöräilyä enemmän vapaa-ajan ja mukautuvien reittien vuoksi.

Matkat ja käyttäjätyyppien vertailu voivat myös paljastaa eroja eri käyttäjäryhmien pyöräilykäyttäytymisessä. Esimerkiksi suurilla etäisyyksillä pyöräilijät, jotka kuuluvat asiakasryhmään, saattavat kulkea pidempiä matkoja verrattuna tilaajaryhmään, mutta matkan pituuden kasvaessa ero kaventuu. Tämä voi johtua siitä, että tilaajat, jotka tekevät enemmän "hyötyajeluja", saattavat valita lyhyempiä reittejä.

On tärkeää huomata, että pyörämatkojen nopeuslaskelmat voivat olla epäluotettavia, jos etäisyyksiä mitataan suoraan ilman pyöräilijöiden todellisia reittejä. Erityisesti matkojen nopeus voi vaihdella, jos pyöräily on lepotaukojen täyteistä tai se on suoritettu vain mukautuvissa ja ei-suunnitelluissa reiteissä. Nopea tarkastelu pyöräilijöiden nopeudesta ja matkan pituudesta eri käyttäjäryhmille voi kuitenkin paljastaa mielenkiintoisia trendejä.

Esimerkiksi ohjelmointiympäristössä, kuten R:ssä, voidaan luoda omia funktioita, jotka helpottavat toistuvien analyysien tekemistä. Yksi tällainen funktio voi olla get_age(), jonka avulla voidaan laskea pyöräilijöiden ikä syntymävuoden ja vertailuvuoden perusteella. Tämä ikätieto on hyödyllinen, kun tarkastellaan pyöräilijöiden ikäryhmiä ja heidän pyöräilykäyttäytymistään. Esimerkiksi voidaan laskea ikä ja analysoida, kuinka pyöräilykäyttäytyminen vaihtelee eri ikäryhmissä, ja kuinka nämä käyttäjäryhmät voivat vaikuttaa matkojen pituuksiin ja nopeuksiin.

Eri ikäryhmien ja käyttäjätyyppien vertaileminen voi myös paljastaa, että tilaajat tekevät nopeampia matkoja kuin asiakkaat, mutta tämä ero pienenee matkan pituuden kasvaessa. Tämä voi kertoa siitä, että tilaajat saattavat olla enemmän kiireisiä ja tekevät matkoja työpaikan ja kodin välillä, kun taas asiakkaat tekevät enemmän vapaa-ajan matkoja, jotka voivat olla pidempiä ja vaihtelempia.

On myös tärkeää ottaa huomioon, että nämä analyysit voivat vaihdella sen mukaan, kuinka suuria datalohkoja käytetään. Liian pienet alaryhmät voivat aiheuttaa satunnaista vaihtelua, joten on suositeltavaa käyttää riittävän suuria otoksia, jotta saadaan luotettavia tuloksia ja voidaan tehdä järkeviä johtopäätöksiä.

Miksi jalankulkijaonnettomuuksien taustalla on alueellisia eroja ja kuinka ajoneuvojen kuljettajien ja jalankulkijoiden demografiset piirteet vaikuttavat onnettomuuksien esiintyvyyteen?

Jalankulkijaonnettomuuksien tutkimuksessa on havaittu selvä yhteys onnettomuuksien taajuuden ja asuinalueiden köyhyysasteiden välillä. Erityisesti alueilla, joilla on korkea sosiaalinen ja taloudellinen epätoivo, onnettomuuksia esiintyy useammin. Tämä malli on tutkitusti johdonmukainen myös muiden tutkimusten kanssa (Tortosa et al. 2021). Korkean köyhyyden alueet ovat tavallisesti tiheämmin asutettuja ja sijaitsevat usein kaupunkialueilla, joten ei ole yllättävää, että jalankulkijaonnettomuudet keskittyvät juuri näihin alueisiin.

Tutkimukset ovat kuitenkin osoittaneet, että vaikka jalankulkijat ja ajoneuvonkuljettajat asuvat usein samankaltaisilla alueilla, on kuitenkin merkittäviä eroja siinä, kuinka nämä onnettomuudet jakautuvat eri demografisten ryhmien kesken. Esimerkiksi jalankulkijat, jotka joutuvat onnettomuuksiin, asuvat usein alueilla, joilla on korkea köyhyysaste, kun taas kuljettajat, jotka ovat osallisina näissä onnettomuuksissa, voivat asua alueilla, joilla on matalampi köyhyysaste. Tämä voi viitata siihen, että onnettomuuksia esiintyy enemmän silloin, kun ajoneuvon kuljettaja, joka asuu vähemmän köyhällä alueella, törmää jalankulkijaan, joka asuu köyhemmällä alueella. Tämä on kuitenkin vielä spekulatiivinen havainto, joka ansaitsee lisätutkimusta.

Onnettomuuksien jakauman tarkastelussa voidaan huomata, että vaikka suurin osa onnettomuuksista tapahtuu alueilla, joilla on korkea köyhyysaste, on olemassa pieni osa tapauksista, joissa onnettomuuksia tapahtuu yllättävissä paikoissa, kuten alhaisempien köyhyysasteiden alueilla. Näissä alueissa tilastollisesti epätyypilliset onnettomuudet voivat liittyä erityisesti siihen, että alueilla, joilla on alhaisempi köyhyysaste, voi olla enemmän ajoneuvokuljettajia, jotka törmäävät jalankulkijoihin, joiden asuinalue on köyhempi.

Tässä tutkimuksessa on käytetty monimutkaisia tilastollisia malleja ja kaavioita, kuten lämmönkarttoja (heatmaps) ja ristiintaulukointia, jotta voidaan tarkastella ajoneuvojen kuljettajien ja jalankulkijoiden välisiä yhteyksiä. Näiden kaavioiden avulla on selvästi nähtävissä, että suurin osa onnettomuuksista keskittyy tiettyihin yhteisöihin, joissa on korkea sosiaalinen ja taloudellinen epätoivo. Kun tarkastellaan onnettomuuksien yhteyttä ajoneuvonkuljettajien ja jalankulkijoiden asuinalueiden demografisiin piirteisiin, voidaan havaita, että eniten onnettomuuksia tapahtuu silloin, kun sekä kuljettaja että jalankulkija asuvat samankaltaisilla alueilla, joissa on korkea köyhyysaste.

Kuitenkin mielenkiintoinen ja yllättävä löydös on, että suuri osa onnettomuuksista esiintyy myös matalan köyhyysasteen alueilla. Tämä saattaa viitata siihen, että vähemmän köyhissä alueissa, joissa liikenne voi olla vilkkaampaa, kuljettajat ajavat usein vaarallisemmissa olosuhteissa ja tekevät enemmän virheitä, jotka johtavat onnettomuuksiin. Lisäksi tämä voi tarkoittaa, että pienemmissä, vähemmän kehittyneissä yhteisöissä onnettomuuksia saattaa olla vaikeampi havaita tai raportoida, mikä vaikuttaa tilastojen luotettavuuteen.

Tällaisissa tutkimuksissa on tärkeää ymmärtää, että pelkkä köyhyysaste ei ole ainoa tekijä, joka vaikuttaa onnettomuuksien esiintyvyyteen. On myös otettava huomioon muut demografiset tekijät, kuten väestön tiheys, ajoneuvomäärät ja liikenneinfrastruktuuri. Alueet, joilla on suurempi väestötiheys ja vähemmän kehittynyt liikenneinfrastruktuuri, ovat erityisen alttiita onnettomuuksille, vaikka alueilla itsessään olisi alhaisempi köyhyysaste.

Tämäntyyppiset tutkimukset auttavat meitä ymmärtämään, kuinka monimutkaisella tavalla yhteiskunnalliset tekijät vaikuttavat liikenneturvallisuuteen. Eri alueiden väliset eriarvoisuudet eivät rajoitu vain taloudellisiin olosuhteisiin, vaan myös liikennekäyttäytymiseen ja liikenneinfrastruktuuriin, ja ne voivat yhdessä vaikuttaa onnettomuuksien esiintyvyyteen. Tämän ymmärtäminen voi auttaa suunnittelemaan parempia politiikkoja ja toimenpiteitä, jotka vähentävät liikenneonnettomuuksien määrää erityisesti riskialttiilla alueilla.