Tämän luvun tavoitteena on oppia, miten voidaan visualisoida äänestystuloksia ja puolueiden kannatuksia geometristen kaavioiden ja karttateemojen avulla. Yksi hyödyllisimmistä työkaluista on ggplot2, joka tarjoaa joustavan ja monipuolisen tavan luoda visuaalisia esityksiä tilastotiedoista. Tässä tarkastellaan erityisesti, kuinka voit käyttää kaavioita ja karttoja äänestystulosten esittämiseen ja vertaamiseen eri alueiden välillä, erityisesti Iso-Britannian parlamenttivaaleissa.
Aluksi tarkastellaan yksinkertaista hajontakaaviota, jossa vertaillaan konservatiivisten puolueen ääniosuuksia vuosina 2017 ja 2019. Tässä käytetään geom_abline-funktiota piirtämään viivoja, jotka toimivat vertailuviivoina, ja scale_colour_manual-funktiota määrittelemään väritykset eri puolueille. Tämä auttaa selkeyttämään ja yksinkertaistamaan graafista esitystä, koska keskitymme vain kahteen pääpuolueeseen: konservatiiveihin ja työväenpuolueeseen. Tällaisessa kaaviossa käytämme myös geom_point-merkintöjä, jotka piirtävät yksittäiset pisteet hajontakaavioon.
Tämä kaavio on kuitenkin vain lähtökohta. Esimerkiksi jos haluamme tarkastella erityisesti alueita, jotka ovat vaihtaneet puoluetta vuoden 2017 ja 2019 välillä, voimme luoda uuden muuttujan, joka tunnistaa nämä alueet ja käyttää visuaalisia kanavia korostamaan niitä kaaviossa. Tämä voidaan tehdä muun muassa luomalla lisäkerros, joka näyttää ne vaalipiirit, jotka ovat siirtyneet työväenpuolueesta konservatiivipuoleen. Tämä antaa paremman käsityksen siitä, missä poliittinen suuntaus on muuttunut.
Kun tarkastellaan geografiaa, eli alueellisia muutoksia äänestystuloksissa, on tärkeää ottaa huomioon, että muutokset eivät ole välttämättä tasaisia koko maassa. Esimerkiksi pohjoisessa Englannissa ja osissa Walesia konservatiivien kannatus on kasvanut, kun taas Lontoossa ja kaakkoisessa Englannissa ei ole tapahtunut yhtä suuria muutoksia. Tämä alueellinen muutos voidaan visualisoida luomalla karttoja, jotka näyttävät voittavat puolueet eri vaalipiireissä.
Teemakarttojen luominen vaatii kuitenkin enemmän valmistelua. Aluksi on luotava liittymä vaalipiirien rajatiedoston ja tulostiedoston välillä, jotta voimme yhdistää ne ja visualisoida ne oikein kartalla. Tätä varten käytetään inner_join-toimintoa, joka yhdistää vaalipiirien rajatiedot ja tulokset toisiinsa. Tämän jälkeen voidaan luoda kartta, jossa vaalipiirit värjätään sen mukaan, minkä puolueen ehdokas voitti vuoden 2019 vaaleissa.
Kartassa voimme käyttää geom_sf-merkintää, joka piirtää geometristen tietojen perusteella monikulmioita (MULTIPOLYGON). Tämä luo tarkan ja selkeän kuvan siitä, miten eri alueet ovat äänestäneet. Lisäksi voimme lisätä alueiden rajat ja muuttaa kartan koordinaatistoa coord_sf-toiminnolla, jotta se vastaa tarkasti maan geografiaa.
Kartassa voidaan myös korostaa alueita, jotka ovat "swinganneet" konservatiivien tai työväenpuolueen välillä, lisäämällä värejä ja läpinäkyvyyksiä, jotka heijastavat puolueiden välistä muutosta. Esimerkiksi voidaan käyttää läpinäkyvyyksiä (alpha-arvot) osoittamaan, kuinka suuria muutoksia on tapahtunut eri alueilla, ja tummemmat alueet voivat merkitä suuria konservatiivisen puolueen kannatuksen kasvua.
On myös mahdollista käyttää geom_spoke-toimintoa, joka piirtää viivoja, jotka osoittavat, kuinka paljon kukin alue on "kallistunut" kohti konservatiiveja tai työväenpuoluetta. Tämä visuaalinen kanava voi auttaa paljastamaan "punaisen muurin" eli alueet, joissa työväenpuolue on aiemmin ollut vahva, mutta jotka ovat siirtyneet konservatiiveille. Tämä auttaa ymmärtämään, miten poliittiset trendit ovat muuttuneet eri alueilla, erityisesti Englannin pohjoisosassa ja Walesissa.
Kun luodaan tällaisia kaavioita ja karttoja, on tärkeää hallita dplyr ja tidyr-paketteja, koska ne tarjoavat tehokkaita työkaluja datan käsittelyyn ja muokkaamiseen ennen sen visualisoimista. Esimerkiksi muuttujien koodaaminen, datakehysten yhdistäminen ja uuden tiedon laskeminen ovat kaikki tärkeitä vaiheita ennen kaavioiden luomista.
Tällainen analyysi voi paljastaa tärkeitä poliittisia trendejä, kuten alueellisia eroja äänestyksissä ja puolueiden välistä kilpailua eri alueilla. Se voi myös auttaa ymmärtämään, mitkä alueet ovat olleet poliittisesti merkittäviä ja millaisia muutoksia on tapahtunut vaalipiiritasolla. Visualisointi on tehokas työkalu, joka auttaa tekemään monimutkaisista vaalitiedoista helposti ymmärrettäviä ja selkeitä kuvauksia.
Miten Exploratiivinen tietojen analysointi tukee tilastollista graafista esitystä ja päätelmien tekemistä?
Exploratiivinen tietojen analysointi (EDA) on prosessi, jossa pyritään löytämään ja ymmärtämään tietojoukon piirteet ja suhteet graafisten ja tilastollisten tiivistelmien avulla. Tämän analyysimenetelmän tavoitteena on tutkia mahdollisia suhteita, tunnistaa poikkeavuuksia ja testata uusia ideoita ja hypoteeseja. EDA ei ole virallisten tekniikoiden kokoelma, vaan se on pikemminkin näkökulma analyysiin. Se tähtää siihen, että tietojoukon piirteet, mallit ja suhteet tulevat esiin ja niiden pohjalta luodaan ennakko-odotuksia, joita voidaan tarkastella edelleen tarkempien tilastollisten ja graafisten menetelmien avulla. Aluksi analyysi voi olla erittäin tietojohtoinen, jossa tietojoukkoja kuvataan abstraktisti mittaustason mukaan ja luodaan vastaavat graafiset esitykset ja tiivistelmät näiden kuvauksien pohjalta. Tiedon ja ymmärryksen kasvaessa tutkijat voivat soveltaa entistä kohdennetumpia teorioita ja aiempia tietoja mallien kehittämisessä ja arvioinnissa. Graafisilla lähestymistavoilla on tärkeä rooli molemmissa analyysin vaiheissa.
Ensimmäisessä vaiheessa, kun tarkastellaan muuttujia niiden muodon ja sijainnin mukaan, graafiset esitykset auttavat tunnistamaan malleja, joita tilastolliset tiivistelmät eivät havaitse, kuten se, ovatko muuttujat monimodaalisia, poikkeamien suunta ja laajuus. Kun erikoistuneempia malleja ehdotetaan, graafiset tiivistelmät voivat tarjota tärkeitä yksityiskohtia siitä, missä ja kuinka paljon havaittu data poikkeaa mallista. Tämän vuoksi tietojen visualisointi on keskeinen osa EDA:ta (John W. Tukey, 1977).
Erityisesti STATS19-tietojoukko, joka sisältää yksityiskohtaisia tietoja Iso-Britanniassa tapahtuneista liikenneonnettomuuksista, joissa henkilöt ovat loukkaantuneet, tarjoaa erinomaisen esimerkin, jossa EDA:n perusperiaatteet voidaan osoittaa käytännössä. Tämä tietojoukko on erittäin yksityiskohtainen ja sisältää lukuisia kategorisia muuttujia. Tietojoukko tarjoaa mahdollisuuden tutkia syvällisesti yksittäisten muuttujien ja muuttujaparin välistä vaihtelua.
Kun tarkastellaan EDA:ssa käytettyjä graafisia esityksiä, erityisesti jatkuvien muuttujien analysoinnissa, useat eri kaaviotyypit auttavat tunnistamaan muuttujien vaihtelut. Esimerkiksi histogramaattisesti ja tiheyskaavioilla voidaan esittää ikäjakaumat onnettomuustilastoista, kuten "kävelijöiden loukkaantuneiden" iästä. Histogrammi jakaa havainnot tasavälein, jolloin voidaan tunnistaa jakauman muoto ja keskipisteet. Vaikka histogrammin etu on sen selkeä esitystapa, se saattaa kuitenkin johtaa harhakuviin ja ääripäiden vinoutumiin, mikä on tilastollisesti merkittävä ongelma. Tiheyskaaviot sen sijaan ovat "sulautettuja" histogrameja, jotka näyttävät muuttujan todennäköisyysjakauman ja tarjoavat visuaalisesti selkeämmän kuvan jakauman muodosta.
Toinen hyödyllinen graafinen esitys on laatikkokaavio, joka tiivistää tärkeitä tilastollisia ominaisuuksia, kuten mediaanin, kvartiilivälin ja poikkeavat havainnot (ulkopuoliset arvot). Vaikka laatikkokaavio menettää osan informaatiosta jakauman muodosta, se on erittäin hyödyllinen tilastollisten vertailujen tekemisessä erityisesti useiden jakaumien kesken. EDA:n tehokkuus riippuukin pitkälti graafisten esitysten kyvystä paljastaa sellaisia tietomalleja, joita perinteinen numeerinen analyysi ei kykene havaitsemaan.
Toinen merkittävä osa EDA:ta on muuttujien välisen yhteisvarianssin tutkiminen, mikä onnistuu parhaiten käyttämällä visuaalisia menetelmiä, kuten hajontakuvioita ja rinnakkaisia koordinaattikaavioita. Näiden avulla voidaan tehokkaasti analysoida erilaisten muuttujien välisiä suhteita, kuten esimerkiksi nopeusrajoitusten ja onnettomuusvakavuuden välistä yhteyttä.
Erityisesti kategoristen muuttujien tarkastelu EDA:ssa tuo esiin toisenlaisen haasteen. Kategoristen muuttujien, kuten onnettomuustyyppien, syiden ja osapuolten määrän analysointiin tarvitaan visuaalisia työkaluja, jotka voivat havainnollistaa suuria tietomääriä selkeästi ja ymmärrettävästi. Tällöin on hyödyllistä käyttää esimerkiksi mosiikkikaavioita ja kovertuuri-diagrammeja, jotka voivat auttaa näyttämään, kuinka tietyt muuttujat voivat olla yhteydessä toisiinsa ja tuovat esiin piirteitä, joita ei pelkällä tilastollisella analyysillä pysty havaitsemaan.
EDA:ssa on tärkeää ymmärtää myös, että kyse ei ole pelkästään muuttujien kuvaamisesta, vaan ennen kaikkea uusien, jopa ennennäkemättömien mallien etsimisestä datasta. Se ei rajoitu vain tilastollisten kaavioiden ja kaavojen piirtämiseen, vaan tuo esiin mahdollisuuksia, joita ei perinteisillä analyyseillä välttämättä saavuteta.
Näin ollen EDA tarjoaa arvokkaita työkaluja ja menetelmiä, joiden avulla voi kehittää syvällistä ymmärrystä tietojoukoista ja poikkeavuuksien tunnistamisesta, mutta sen tehokkuus riippuu vahvasti kyvystä valita oikeat visuaaliset menetelmät ja esitystavat. Tämän vuoksi EDA:n menetelmien hallinta on olennainen taito, joka vaatii sekä graafisten esitysten että tilastollisten analyysien yhdistämistä.
Kuinka luoda ja visualisoida ruudukon kartta geografiassa: esimerkkejä ja käytännön sovelluksia
Ruudukon kartan luominen on tehokas tapa visualisoida geospatiaalista tietoa, ja se voidaan saavuttaa käyttämällä funktiota make_grid(). Tämä funktio vastaanottaa sf-data-kehyksen, joka sisältää monikulmioita "oikealla" geografialla, ja palauttaa sf-data-kehyksen, joka esittää ruudukon, jossa on muuttujat, jotka tunnistavat sarake- ja rivitunnukset (alkuosa sijaitsee vasemmassa alakulmassa) sekä ruutujen maantieteelliset keskipisteet. Ruudukon ja todellista maantiedettä kuvaavan alueen yhdistäminen voi tuottaa tehokkaan karttaratkaisun, jossa jokaisella ruudulla on oma paikkansa ja se vastaa tiettyä alueellista yksikköä.
Kun ruudukon monikulmioiden tiedosto (grid) ja vastaavat ruudukon solmut (rivi ja sarake) on luotu, voidaan ruudukot visualisoida suoraan monikulmioiden tiedostosta. Tämä voidaan tehdä esimerkiksi käyttämällä facet_grid()-toimintoa, joka mahdollistaa ruudukon neliöiden sijaintien esittämisen kartalla. Toinen vaihtoehto on yhdistää sekä ruudukko että geospatiaalinen tieto (todelliset alueet) luodaksesi kartan, jossa on kartta kartassa -tyyppinen esitystapa, kuten esimerkki OD-kartoista (origin-destination maps).
Esimerkiksi kaupunkialueilla, kuten Lontoossa, ruudukon solmut voivat edustaa alueellisia yksiköitä, kuten borought, ja solmuissa olevat tiedot voivat esittää työntekijöiden ja työpaikkojen määrää eri alueilla. Tämä yhdistelmä mahdollistaa erilaisten visuaalisten analyysien tekemisen, joissa voidaan tarkastella työntekijöiden ja työpaikkojen jakautumista eri alueilla. Näin voidaan havaita, kuinka Lontoon keskustan alueilla, kuten Westminsterissä, on runsaasti ammattilaisille tarkoitettuja työpaikkoja, kun taas itäisillä ja ulommilla alueilla voi olla enemmän ei-ammatillisia työntekijöitä.
Kun tiedot on yhdistetty, voidaan käyttää erilaisia geospatiaalisen visualisoinnin tekniikoita, kuten ggplot2:ta, luomaan karttoja, joissa solmujen koko ja väri kuvaavat työntekijöiden ja työpaikkojen määriä eri alueilla. Esimerkiksi Lontoon boroughissa voi olla eroja ammattilaisten ja ei-ammattilaisten välillä, ja tämä ero voidaan visualisoida ympyröiden koon ja värin avulla. Tässä yhteydessä voidaan myös käyttää kaavioita, kuten pylväskaavioita, analysoimaan työntekijöiden ja työpaikkojen jakautumista eri ammattiluokkien mukaan.
Erityisesti, kun analysoidaan useita ammattiluokkia, kuten Lontoon tapauksessa, voidaan luoda visuaalisia esityksiä, joissa pylväiden pituus eroaa alueittain ja kuvaa työpaikkojen ja työntekijöiden määrää. Tämä auttaa erottamaan alueet, joissa on paljon työpaikkoja ja alueet, joissa on suuri määrä asukkaita, jotka eivät välttämättä ole suoraan yhteydessä työpaikkoihin.
Tämä tyyppinen ruudukon kartan visualisointi ei ole pelkästään tilastollinen väline, vaan se myös avaa syvempiä oivalluksia kaupunkien ja alueiden sosiaalisesta ja taloudellisesta rakenteesta. Lontoon esimerkissä voidaan huomata, että tietyt alueet, kuten Westminster, ovat työpaikkarikkaita, kun taas tietyt alueet ulkopuolella, kuten Wandsworth, saattavat olla asukaskeskittyneitä.
Kun haluat luoda monimutkaisempia graafisia esityksiä, kuten usean työntekijäryhmän tai työpaikkaluokan analyysiä, ruudukon kartat tarjoavat erinomaisen perustan. Esimerkiksi ruudukkokartan avulla voidaan tuottaa tilastollisia yhteenvetoja eri alueiden ammattiluokista ja työntekijöiden määrästä. Graafit voivat esittää, kuinka esimerkiksi Westminsterissä ammattiluokkien työpaikat ovat määrällisesti korkeammalla kuin ulkoseudun alueilla, joissa saattaa olla enemmän asukkaita, mutta vähemmän työpaikkoja.
Tämä analyysitapa tarjoaa tilastollista tietoa, mutta myös havainnollistaa kaupunkien ja alueiden välisiä eroja sosiaalisten ja taloudellisten olosuhteiden mukaan. On tärkeää huomata, että vaikka ruudukon kartat voivat tuottaa erittäin tarkkaa ja informatiivista tietoa, niiden tulkinta vaatii huolellista huomiota kontekstiin ja analyysin taustalla oleviin oletuksiin. Tällöin on tärkeää pohtia myös sitä, miten geospatiaalinen ja demografinen tieto yhdistyy ja miten se voi vaikuttaa alueellisten eroavuuksien ymmärtämiseen ja visualisointiin.
Miten Luoda Luova Liiketoiminta ja Saavuttaa Menestys Verkkokaupassa Kuuden Viikon Aikataululla
Kuinka taide ja arki kohtaavat keittiössä
Miksi palveluarkkitehtuuri (SOA) on olennainen IoT-järjestelmien joustavuuden ja skaalautuvuuden takaamisessa?
Kuinka leipoa täydellisiä kakkuja: tekniikat, välineet ja makuvinkit

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский