Visualisointityökalujen, kuten ggplot2:n, käyttö on keskeinen osa datatieteilijän työkaluarsenaalia, koska ne tarjoavat visuaalisia lähestymistapoja datan analysointiin. Tällöin ei tarvitse huolehtia matalan tason piirtämisprosessista, kuten arvojen ja koordinaattien hakemisesta tai skaalausfaktoreista, vaan voi keskittyä siihen, miten analysoitavat muuttujat koodataan ja esitellään visuaalisesti. Tämä mahdollistaa analyysien nopean tekemisen ja tulosten esittämisen selkeästi, jolloin tärkein huomio kiinnittyy itse aineistoon ja sen visualisoimiseen.
Esimerkkinä voidaan tarkastella vaalikannatusta puolueittain ja alueittain. Tämän visualisointiprosessin ensimmäinen vaihe on datan muokkaaminen sopivaksi, jonka jälkeen se voidaan esittää selkeästi graafisesti. Oletetaan, että haluamme tutkia puolueiden äänestysosuuksia eri alueilla. Tällöin ensin luodaan data, joka sisältää muun muassa puolueiden äänimäärät ja niiden osuus verrattuna kokonaisäänestykseen kussakin alueessa. Tämä data voidaan esittää käyttämällä geom_col()-funktiota, joka luo pylväsdiagrammin.
Tällöin puolueet, jotka ovat kategorisia muuttujia, voidaan asettaa x-akselille ja äänestysosuudet y-akselille. Yksi tehokas tapa tehdä tämä on käyttää reorder()-funktiota, joka asettaa puolueet järjestykseen sen mukaan, kuinka suuria äänestysosuudet ovat. Tämä auttaa lukijaa hahmottamaan puolueiden kannatusjärjestyksen visuaalisesti. Koska puolueet ovat kategorisia muuttujia, ggplot2 käyttää automaattisesti värikoodauksia perustuen kategorian arvoihin, mutta näitä värejä voidaan halutessamme muokata.
Puolueiden värit ovat tärkeä elementti, sillä ne auttavat katsojaa nopeasti tunnistamaan, mikä puolue on kyseessä. Puolueet on usein liitetty tiettyihin väreihin, ja on järkevää käyttää näitä värejä visualisoinneissa, jotta katsoja saa intuitiivisesti oikean käsityksen siitä, mikä puolue on kyseessä. Tämä voidaan saavuttaa lisäämällä scale_fill_manual()-kerros, jossa määritellään kullekin puolueelle oma värikoodinsa. Esimerkiksi:
Tässä määritellään eri puolueille heidän tunnusvärinsä ja luodaan sitten värikartta, joka liittää nämä värit kunkin puolueen nimiin. Tämän jälkeen käytämme scale_fill_manual()-kerrosta, jolla värit liitetään oikeisiin puolueisiin seuraavasti:
Tällöin luodaan vaalikannatuksen visuaalinen esitys, jossa puolueet ovat järjestetty äänestysosuuden mukaan, värit on määritelty manuaalisesti ja visualisointi on jaettu alueittain. Tämä parantaa graafien luettavuutta ja auttaa katsojaa hahmottamaan alueelliset erot puolueiden kannatuksessa.
Erityisesti jos dataa on paljon ja se on jaettu eri alueisiin, voi olla hyödyllistä käyttää facettikuvauksia (esimerkiksi facet_wrap(~region)), jolloin jokaiselle alueelle luodaan oma alikuvaaja. Tämä auttaa lukijaa vertaamaan eri alueita ja puolueiden kannatusta selkeästi, mutta myös asettaa lisää kognitiivista kuormitusta, sillä eri alueilta tulevien tietojen yhteensovittaminen vaatii tarkkuutta.
Yhtenä erityisenä tekijänä kannattaa huomioida, että visualisointitapahtuma on ennen kaikkea kognitiivinen prosessi, jossa katsojan pitää osata yhdistää visuaaliset elementit oikein. Tällöin on tärkeää, että puolueet erottuvat selkeästi toisistaan ja että värien käytössä ei ole epäselvyyksiä. Esimerkiksi jos vertaillaan vaalikantojen muutoksia eri vuosina, voidaan käyttää erikoistekniikoita, kuten alpha-läpinäkyvyyttä, jolloin tietyt tiedot erottuvat paremmin, kuten alueet, jotka ovat vaihtaneet puoluetta.
Tärkeää on myös ymmärtää, että vaikka ggplot2 ja muut vastaavat työkalut tarjoavat tehokkaita tapoja visualisoida dataa, on myös tärkeää huolehtia siitä, että käytettävät värit, muotoilut ja muut elementit eivät vain seuraa esteettisiä tai teknisiä sääntöjä, vaan tukevat itse analyysiä. Esimerkiksi vaalikantojen esittäminen ei ole vain tekninen haaste, vaan myös poliittinen ja kulttuurinen kysymys. Värit ja symbolit voivat vaikuttaa siihen, miten dataa tulkitaan, ja siksi symboloinnin on aina palveltava selkeää ja reilua viestintää.
Miten käyttää tidymodels-pakettia ja sen työkaluja tilastollisten mallien luomiseen ja arvioimiseen
Tidymodels-paketti ja sen työkalut, kuten broom, tarjoavat tehokkaita tapoja tilastollisten mallien luomiseen ja analysointiin. Erityisesti, jos työskentelet useiden mallin realisaatioiden kanssa, nämä työkalut tekevät prosessista selkeämmän ja hallittavamman. Esimerkiksi, kun haluamme suorittaa yksinkertaisia lineaarisia regressioita useille selittäville muuttujille, voimme käyttää broom-pakettia mallien ulostulojen hakemiseen ja järjestämiseen siistissä muodossa, joka helpottaa tulosten analysointia.
Käytettäessä tidymodels-pakettia, erityisesti broom -kirjastoa, voidaan eristää mallin ulostulot ja esittää ne tidy data -muodossa. Tämä voi auttaa erityisesti monimutkaisessa analyysissä, jossa tarvitaan monia regressiomalleja, jotka on suoritettava erikseen eri selittäville muuttujille.
Esimerkiksi, seuraava koodin osa esittelee, miten luodaan useita regressiomalleja ja tallennetaan ne siistiin data-frameen käyttäen glance, tidy ja augment funktioita.
Tässä esimerkissä otetaan ensin data, joka sisältää kunkin tarkasteltavan selittävän muuttujan z-arvot, ja luodaan nestattu data frame, jossa jokainen muuttuja on omassa listassa. Tämä data voidaan sitten syöttää lineaarisiin malleihin, jotka arvioivat kunkin muuttujan vaikutusta. map -funktiolla voidaan toistaa tätä prosessia jokaiselle selittävälle muuttujalle, jolloin jokaiselle mallille saadaan erilliset ulostulot, kuten glance (mallin yhteenveto), tidy (mallin kertoimet) ja augment (mallin ennusteet ja jäännökset).
Tämän jälkeen voidaan yhdistää kaikki mallit ja niiden tulokset yhteen data-frameen, joka sisältää kunkin muuttujan arvioinnin. Tämä tekee monimutkaisista malleista helposti luettavia ja vertailtavia.
Tässä vaiheessa käytetään unnest -funktiota, joka purkaa listasarakkeet ja yhdistää mallin ulostulot yhdeksi suureksi data frameksi. Tämä mahdollistaa kaikkien mallien vertailun ja helpottaa tilastollisten analyysien tekemistä eri muuttujien välillä.
On tärkeää huomata, että vaikka tämä lähestymistapa tarjoaa selkeän ja systemaattisen tavan käsitellä useita malleja, se ei ole ainoa tapa. Eri tilanteissa voi olla tarpeen soveltaa erilaisia strategioita mallin arvioinnin ja ulostulojen käsittelemiseksi. Esimerkiksi, jos käytät monivaiheisia malleja tai monimutkaisempia tilastollisia tekniikoita, kuten interaktiomalleja tai ei-lineaarisia regressioita, broom -paketti voi auttaa yksinkertaistamaan ulostulojen hallintaa ja selkeyttämään tulosten tulkintaa.
Erityisesti suurten datamäärien kanssa työskenteleville, kuten yhteiskuntatieteissä tai taloustieteessä, tämä lähestymistapa on arvokas, sillä se mahdollistaa erilaisten mallien vertailun ja helpottaa erilaisten tulosten visualisointia ja analysointia.
Esimerkiksi ggplot2 -paketti voidaan liittää tähän prosessiin, jotta saadaan visualisoitua eri muuttujien regressiokerrointen luottamusvälit ja estimoidut arvot. Tämä luo mahdollisuuden tulkita mallin ennusteet visuaalisesti ja auttaa tutkimaan, mitkä muuttujat vaikuttavat eniten mallin tuloksiin.
Tällainen lähestymistapa on erityisen hyödyllinen, kun käsitellään monivaiheisia, toistuvia malleja, sillä se voi huomattavasti vähentää koodin monimutkaisuutta ja parantaa analyysin joustavuutta.
Käytännön sovelluksissa on tärkeää myös ymmärtää, kuinka mallin virhemarginaalit, kuten residual standard error ja p-arvot, vaikuttavat tilastollisiin päätelmiin. Mallin laadun arvioinnissa kannattaa kiinnittää huomiota myös adjusted R-squared -arvoon, joka antaa tarkempaa tietoa mallin sopivuudesta, erityisesti silloin, kun selittäviä muuttujia on useita.
Tämän lisäksi on syytä huomioida, että vaikka tidymodels ja broom tarjoavat erittäin tehokkaita työkaluja, ne eivät poista tarvetta ymmärtää syvällisesti tilastollisia käsitteitä ja menetelmiä. Mallin tarkastelu ei ole vain tekninen prosessi, vaan se vaatii myös kykyä arvioida, kuinka hyvin malli kuvaa todellista maailmaa ja mitä se kertoo tutkitusta ilmiöstä.
Miten käsitellä useita tilastollisia testejä ja epävarmuutta visuaalisessa analyysissä?
Kun useita tilastollisia testejä suoritetaan samanaikaisesti, kuten kuvan 7.10 esimerkissä, on mahdollista, että osa havaitusta "tilastollisesta signaalista" on itse asiassa virheellinen havainto eli väärä hälytys. Tässä yhteydessä väärän positiivisen tuloksen eli "false positive" -tuloksen todennäköisyys on noin 5%, mikä tarkoittaa, että 1/20 testistä voi tuottaa virheellisiä tuloksia, vaikka oikeasti ei olisi mitään tilastollista vaikutusta. Tämä virheellisten havaintojen kertyminen on erityisen huolestuttavaa silloin, kun tutkitaan suuria tietomääriä, kuten karttanäyttöjä tai muita visuaalisia esityksiä, joissa tilastollista analyysia esitetään visuaalisesti.
Yksi ratkaisu tähän ongelmaan on tilastollisten testien säätäminen niin, että ne olisivat konservatiivisempia. Tämä voidaan tehdä esimerkiksi soveltamalla hierarkkista mallinnusta, kuten kuvassa 7.10 on esitetty. Tällöin paikallisten virhesuhteiden KSI-arvoja (kuolon- ja vakavien vammojen kolaritilastot) "kutistetaan" kohti globaalin keskiarvon, eli kansallisen keskimääräisen KSI-arvon tasoa, erityisesti silloin, kun havainnot perustuvat pieniin otoksiin. Tällaisessa lähestymistavassa epävarmuus huomioidaan, ja arvojen arvioinnissa otetaan huomioon tiedon määrä, jolloin pienemmillä otosmäärillä saadaan konservatiivisempia, varovaisempia tuloksia. Tässä käytetty Bayesiläinen Riskisuhde (Bayesian Risk Ratio) on herkkä epävarmuudelle ja saa enemmän painoarvoa silloin, kun se perustuu pieniin otoksiin.
Tällöin tilastollisten testien tuloksia voidaan luokitella tilastollisesti merkitseviksi, mikäli niiden luottamusväli ei kata arvoa 1.0, eli jos Bayesiläinen Riskisuhde (RR) ei ole yhtäläinen kuin 1. Tällöin voidaan tehdä päätelmiä, että havaittu ilmiö on poikkeava ja tilastollisesti merkitsevä. Kuvassa 7.10 käytetty värikoodaus selkeyttää tätä prosessia: paikallisten virhesuhteiden riskisuhteet esitetään värikoodein, joissa arvot, jotka poikkeavat kansallisesta keskiarvosta (odotetusta), näkyvät joko oikealle tai vasemmalle suuntautuvilla viivoilla.
Tilastollisten tulosten esittäminen kartalla, jossa tilastollinen merkittävyys on mukana, voi johtaa siihen, että havaitaan alueita, joilla KSI-luku on huomattavasti suurempi tai pienempi kuin odotettiin. Tällöin on kuitenkin tärkeää muistaa, että "tilastollinen merkitsevyys" ei aina tarkoita, että kyseinen ilmiö on todella merkittävä käytännön tasolla. Esimerkiksi, jos tilastollisesti merkittävä poikkeama ilmenee pienellä alueella, jolla on vähän havaintoja, tällainen tulos voi olla harhaanjohtava, koska pieni otoskoko voi johtaa epäluotettaviin johtopäätöksiin.
On myös otettava huomioon, että vaikka tilastolliset testit voidaan säätää konservatiivisemmiksi, tämä voi tuottaa myös väärän negatiivisen tuloksen eli tilanteen, jossa oikeaa vaikutusta ei havaita, koska testi ei ole tarpeeksi herkkä. Tällöin voidaan jäädä huomaamatta ilmiöitä, jotka ovat oikeasti tärkeitä. Tämä on yleinen ongelma tilastollisessa analyysissä, jossa on tasapainoiltava väärien positiivisten ja väärien negatiivisten tulosten välillä.
Näiden tilastollisten menetelmien lisäksi voidaan käyttää bootstrap-perustaisia luottamusvälejä, jotka tarjoavat lisää varmuutta estimointien luotettavuuteen. Bootstrap-menetelmässä alkuperäisistä havainnoista otetaan satunnaisia otoksia, ja lasketaan luottamusväli, joka kuvaa parametrin vaihtelua eri otoksissa. Tämä lähestymistapa tarjoaa tarkempia ja luotettavampia tuloksia, kun otoskoko on pieni.
Tällöin tärkeää on myös havainnollistaa tulokset visuaalisesti. Esimerkiksi ikoniruutujen (icon arrays) avulla voidaan esittää tietoa siitä, kuinka suuri osa havainnoista kuuluu tiettyyn kategoriaan. Kuvassa 7.11 esitetyt ikoniruutuvertailut Farehamin ja Oxfordin kunnista kuvaavat, kuinka suuri osa liikenneonnettomuuksista oli vakavia, ja antavat visuaalisen käsityksen siitä, miten KSI-lukujen erot näkyvät paikkatason tarkastelussa.
On tärkeää ymmärtää, että tilastollisten testien ja visualisointien yhdistäminen ei ole vain tekninen haaste, vaan myös eettinen kysymys. Visualisointi voi vahvistaa tai heikentää havaintojen uskottavuutta riippuen siitä, miten epävarmuus esitetään. Epävarmuuden visualisointi on erityisen tärkeää, sillä se auttaa lukijaa ymmärtämään, että tilastolliset mallit eivät ole täydellisiä ja että analyysin tulokset ovat aina jonkin verran epävarmoja.
Epävarmuuden esittämisellä on myös merkitystä käytännön sovelluksissa, kuten liikenneturvallisuuden analysoinnissa, koska se auttaa päättäjiä tekemään parempia päätöksiä alueilla, jotka vaativat toimenpiteitä. On myös tärkeää, että päätöksentekijät ymmärtävät, että kaikki tilastolliset poikkeamat eivät välttämättä johda toimiin. Päätöksenteko ei saisi perustua pelkästään tilastollisiin signaaleihin, vaan myös asiayhteyteen, alueen erityispiirteisiin ja muuhun kontekstiin.
Miten visuaalinen tarinankerronta voi vaikuttaa ymmärrykseemme ja päätöksentekoon?
Visuaalinen tarinankerronta on tehokas työkalu, jonka avulla voidaan välittää monimutkaisia tietoja ja ajatuksia yleisölle. Tällöin visuaaliset elementit, kuten graafit ja kaaviot, eivät ole vain esitystapaa, vaan ne itse asiassa tukevat ja muokkaavat sitä, miten me ymmärrämme ja tulkitsemme tietoa. Esimerkiksi, kun vertaillaan maita pandemian etenemisen suhteen, visuaalisten elementtien käyttö on tärkeää, mutta myös tietynlaisten valintojen tekeminen voi tukea tai heikentää yleisön kykyä tehdä havaintoja ja johtopäätöksiä.
Yksi esimerkki tästä on kaaviot, joissa maat erottuvat värin tai muiden visuaalisten tunnusmerkistön avulla. Näissä esityksissä ei välttämättä käytetä selitystekstejä, vaan maita erotetaan pelkästään värein ja numeroina esitetään keskeiset käsitteet. Tämä saattaa aluksi tuntua yksinkertaiselta, mutta sellaisissa kaavioissa, kuten Figure 8.3:ssä, jossa visualisoidaan kuolleiden määrää eri maissa, ei ole erillisiä selitteitä, mikä saattaa aluksi vaikeuttaa tietojen ymmärtämistä. Tämä valinta kuitenkin tukee hyvin sitä tavoitetta, että katsoja voi keskittyä oleellisiin vertailukohtiin ilman, että häneltä vaaditaan liikaa kognitiivista kuormitusta.
Visuaalisessa tarinankerronnassa tärkeä tekijä on myös se, kuinka tietojen esitystapaa muokataan ja skaalataan niin, että se tukee yleisön intuitiota ja ymmärrystä. Esimerkiksi, Bhatia ja Reichin (2020) Covid Trends -kaaviossa käytetään kaksoislogaritmista asteikkoa, jossa esitetään kasvuasteita uusissa tapauksissa verrattuna kokonaismäärään, sen sijaan että aikaa esitetään akselilla. Vaikka tämä voi aluksi tuntua vaikealta, se auttaa itse asiassa tarkentamaan lukijan visuaalista arviointia juuri siihen, mikä on kaikkein oleellisin: kuinka eri maissa on verrattu kasvunopeuksia ja kuinka ne sijoittuvat esimerkiksi kahden päivän tuplaantumiseen.
Tällaiset suunnitteluratkaisut, vaikka ne saattavat vaikuttaa aluksi haasteellisilta, rakentavat intuitiota. Visualisoitu kertomus vie lukijan tutusta kohdasta tuntemattomaan. Se aloittaa tutusta aikajanasta ja edistyy vähitellen enemmän analyyttisiin ja vähemmän tutuiksi koettaviin esitystapoihin. Näin myös tarinan visuaaliset piirteet auttavat rakentamaan aiempia käsityksiä ja antavat lukijalle työkalut syvällisempään ymmärrykseen.
Toinen mielenkiintoinen tapa käyttää visuaalisia elementtejä on animaatioiden hyödyntäminen. Animaatiot voivat lisätä visuaalista kiinnostavuutta ja parantaa yleisön sitoutumista, mutta samalla ne voivat myös ylikuormittaa katsojan tiedonkäsittelykapasiteettia. Esimerkiksi Financial Timesin tuottama visuaalinen kertomus, jossa esitellään sairaalaan päätyneiden määrää eri vuosina, hyödyntää animaatioita tarkasti ja harkiten. Animaatiot eivät ole vain visuaalisia efekttejä, vaan ne auttavat lukijaa hahmottamaan, kuinka poikkeuksellista Covid-19:n aiheuttama tilanne oli verrattuna aiempiin kausiin.
Animaatioiden rooli on, että ne auttavat lukijaa hahmottamaan muutokset ja suhteuttamaan ne aiempiin tietoihin, kuten tavanomaisiin flunssakausiin. Tämä voi vahvistaa lukijan käsitystä siitä, kuinka poikkeuksellinen ja vakava nykyinen tilanne on, samalla kun visuaaliset muutokset voivat auttaa kumoamaan väärinkäsityksiä, kuten väitteen, että Covid-19:n vaikutus olisi samanlainen kuin kausiflunssilla.
Mielenkiintoista on myös se, kuinka visuaaliset kertomukset voivat olla poliittisesti latautuneita. Esimerkiksi Financial Timesin tuottama kaavio, joka osoittaa rokotusten vaikutuksen Covid-19-tartuntojen ja sairaalahoitojen vähenemiseen, herättää keskustelua liikkumisrajoitusten ja rokotusten roolista pandemian hillitsemisessä. Kaaviossa on käytetty visuaalisia korostuksia, kuten rokotteen vaikutuksen lisäämistä, mikä voi ohjata lukijan johtopäätöksiä. On tärkeää huomata, että tällainen esitystapa voi myös vaarantaa graafisen eheyden ja avoimuuden, jos se liikaa ohjaa lukijaa tiettyyn suuntaan.
Kaikkien tietojen ja analyysien taustalla on kuitenkin aina yksilöiden arvot, ennakko-odotukset ja poliittiset motiivit, jotka vaikuttavat siihen, miten tietoa käsitellään ja esitetään. Tässä mielessä visuaalinen kertomus ei ole vain objektiivinen kuva, vaan se on valintojen summa, joka heijastaa luojaidensa arvoja ja aikomuksia. Tämän vuoksi on tärkeää, että lukijat, jotka tarkastelevat dataa ja siihen liittyvää visuaalista esitystä, ovat tietoisia siitä, että kaavioiden ja graafien esittämät tiedot voivat olla muokattuja tavalla, joka tukee tiettyjä näkökulmia tai väitteitä. Tietoisuus siitä, kuinka visuaaliset valinnat muokkaavat tarinan tulkintaa, on keskeistä niin datan lukijoille kuin myös niitä tuottaville asiantuntijoille.
Miten valmistaa herkullisia ja terveellisiä meksikolaisia ruokia kotona?
Miten optimoida sähkökäyttöisten ajoneuvojen (EV) latausta ja resurssien hallintaa älykäytävässä?
Miten toisen tason juoteliitosten luotettavuutta voidaan parantaa kulutuselektroniikassa ja autoteollisuudessa?
Mikä rooli narratiivilla on politiikan ja yhteiskunnan muovaamisessa?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский