Epävarmuus on olennainen osa kaikkea tietoanalyysiä, ja sen huomioon ottaminen on ratkaisevaa luotettavien johtopäätösten tekemisessä. Tilastotieteilijöiden ja data-analyytikoiden työssä epävarmuus tulee lähes aina esiin, sillä analyysien tarkkuus on harvoin täydellinen. Erityisesti liikenneonnettomuuksien, kuten KSI (kärsimys, vakavuus ja vammat) -mittarien arvioinnissa, epävarmuus saattaa vaikuttaa suoraan päätöksentekoon ja sen perusteluun.

Analysoidessamme liikenneonnettomuuksien vakavuuksia, erityisesti huomioiden alueelliset vaihtelut ja aikarajat, on tärkeää ymmärtää, kuinka epävarmuus vaikuttaa tuloksiin. Bootstrap-resamplejen avulla voidaan arvioida tätä epävarmuutta ja esittää sen visuaalisesti graafisessa muodossa. Esimerkiksi R-kielen bootstraps()-funktiota käytetään tuottamaan 1000 bootstrap-näytettä, joissa "Apparent"-identifioitu ryhmä sisältää havaittuja KSI-mittauksia. Uuden datan la_boot-sarakkeessa on lista bootstrap-datasettejä, jotka mahdollistavat KSI-arvon arvioinnin ja epävarmuuden laskemisen.

KSI-mittauksien arvioinnin aikana on oleellista käyttää graafisia työkaluja kuten ggplot2 ja ggdist, jotka mahdollistavat epävarmuuden visuaalisen esittämisen. Tällöin KSI-arvon ja sen epävarmuuden arvioiminen esitetään käyrinä, jotka visualisoivat miten arviot vaihtelevat eri bootstrap-näytteiden välillä. Tämä lähestymistapa on hyödyllinen erityisesti silloin, kun tiedämme, että data on saattanut sisältää vääristymiä tai satunnaisia virheitä, ja haluamme varmistaa, että analyysi on kestävä ja realistinen.

Hypoteettisten tulosten visualisointi, kuten Hypothetical Outcome Plots (HOP), on toinen väline, joka auttaa ymmärtämään epävarmuutta. Näitä visualisointeja voidaan tuottaa käyttämällä gganimate-pakettia, joka mahdollistaa liikkuvien graafien luomisen ja epävarmuuden vuorovaikutuksen esittämisen ajassa. Näin saamme käsityksen siitä, kuinka KSI-arvot voivat kehittyä eri skenaarioissa, ja kuinka epävarmuus vaikuttaa ennusteisiin.

Esimerkiksi ggplot()-funktiolla voidaan piirtää kaavioita, joissa näkyvät sekä alkuperäiset havaintotiedot että bootstrap-resamplet. Yksi tavallisista käytännöistä on lisätä kaksi erillistä viivakerrosta: toinen, joka esittää alkuperäiset tiedot, ja toinen, joka esittää bootstrap-näytteistä saatuja arvioita. Tällöin visualisoinnissa voi havaita selkeämmin, miten paljon KSI-arvot vaihtelevat ja kuinka suuri epävarmuus on kunkin vuoden ja alueen osalta.

Kun tarkastelemme KSI-arvoja eri aikaväleillä, on tärkeää ottaa huomioon myös mahdolliset alueelliset erot. Näin voimme luoda esimerkiksi aikarajoitettuja kaavioita, jotka näyttävät, miten onnettomuuksien vakavuus kehittyy ajan myötä eri paikallisviranomaisten alueilla. Tässä yhteydessä ei pidä unohtaa, että vaikka suuri määrä bootstrap-näytteitä voi auttaa tuottamaan tarkempia arvioita, aina on olemassa jonkinlainen epävarmuus, joka liittyy siihen, että emme voi koskaan saada täydellistä tietoa.

Epävarmuuden huomioiminen on erityisen tärkeää päätöksenteossa. Esimerkiksi liikenneonnettomuuksien vakavuuden arvioinnit vaikuttavat suoraan lainsäädäntöön, turvallisuusstrategioihin ja resurssien jakoon. Jos visualisoimme vain keskimääräisiä tuloksia ilman epävarmuuden esittämistä, voimme johtaa virheellisiin johtopäätöksiin. KSI-arvot voivat vaihdella merkittävästi eri paikkakunnilla ja vuosittain, ja epävarmuuden visuaalinen esittäminen auttaa ottamaan tämän huomioon päätöksenteossa.

On myös tärkeää huomioida, että epävarmuus ei ole vain tilastollinen käsite, vaan se voi myös heijastaa puutteellista tai epätäydellistä tietoa. Siksi on elintärkeää kehittää ymmärrystä siitä, kuinka käsitellä, kommunikoida ja tulkita epävarmuutta eri konteksteissa. Esimerkiksi liikenneonnettomuuksien analyysissa ei riitä pelkkä keskivertotulos; meidän on myös osattava arvioida, kuinka paljon tiedot voivat vaihdella ja kuinka suuri osa tästä epävarmuudesta voi vaikuttaa poliittisiin päätöksiin.

Lopuksi, epävarmuus ei ole vain haaste, vaan se voi myös tuoda lisäarvoa analyysiin. Jos pystymme esittämään epävarmuuden selkeästi ja ymmärrettävästi, voimme luoda luotettavampia ja kestävämpiä johtopäätöksiä, jotka tukevat parempaa päätöksentekoa ja turvallisuusstrategioita.

Kuinka dataohjattu kertominen muuttaa pandemiatietojen esittämistä?

Dataohjattu kertominen on kehittynyt yhdeksi tärkeimmistä välineistä tiedonvälityksessä, erityisesti silloin, kun kyseessä on monimutkainen ja laaja-alainen data, kuten COVID-19-pandemian aikana kerätty informaatio. Tämän lähestymistavan ytimessä on ymmärrys siitä, että pelkkä datan esittäminen ei ole riittävää: tarkoitus on selittää ja viestiä monimutkaisia ilmiöitä niin, että ne ovat helposti ymmärrettävissä ja samanaikaisesti informatiivisia. Tässä luvussa tarkastelemme, kuinka visualisointien suunnittelu ja erityisesti COVID-19-pandemian tiedon esittäminen ovat vaikuttaneet siihen, kuinka ymmärrämme ja tulkitsemme pandemian kulkua.

Visualisointien suunnittelussa korostuu se, että ne eivät ole pelkästään kaavioita tai grafiikoita, vaan ne muodostavat tarinan, joka vie katsojan tiettyyn suuntaan. Tieto on paketoitu visuaaliseksi kertomukseksi, joka ohjaa lukijaa ymmärtämään tietyn ilmiön taustalla olevia trendejä ja kehityskulkuja. Tämän vuoksi visualisoinnin tarkoituksena on olla sekä informatiivinen että houkutteleva. Kuten Roth (2021) toteaa, tehokkaan dataohjatun kertomuksen piirteet ovat muun muassa se, että visualisoinnit ovat suunniteltuja, osittaisia, intuitiivisia, kiehtovia, samaistuttavia ja poliittisia.

Erityisesti Financial Timesin COVID-19-visualisoinnit (Financial Times 2020) tarjoavat erinomaisen esimerkin tästä lähestymistavasta. Yksi tunnetuimmista visualisoinneista on COVID-19:n kuolemantapausten kehitystä seuraava kaavio, jossa käytetään logaritmista asteikkoa kuolemantapausten kumulatiivisten lukujen esittämiseen ja aikajanalla (x-akselilla) vertaillaan eri maiden tilanteita. Tämä lähestymistapa poikkeaa perinteisestä kaaviosta, sillä se ei esitä pelkästään lukuja vaan auttaa vertailemaan eri maiden välistä kehitystä, jolloin voidaan tarkastella muun muassa sitä, kuinka monta päivää kestää, että maa saavuttaa tietyn kuolemantapausten määrän.

Tällaisen visualisoinnin suunnittelussa on huomioitu useita tärkeitä elementtejä. Yksi tärkeimmistä on se, että se on osittainen: siinä esitetään vain olennaisimmat tiedot, jotka auttavat ymmärtämään keskeisen viestin – tässä tapauksessa maiden välistä vertailua kuolemantapausten kehityksessä. Logaritminen asteikko ei yritä esittää täydellistä kuvaa vaan kaventaa lukijan huomiota siihen, mikä on olennaista: eri maiden kasvuvauhdin vertailuun. Tämä valinta auttaa lukijaa ymmärtämään trendejä paremmin kuin yksittäisten kuolemantapausten vertailu.

Toinen tärkeä piirre on, että visualisointi on intuitiivinen. Se hyödyntää visuaalisia elementtejä, jotka tukevat tarinankerronnan luonteenomaista etenemistä. Esimerkiksi eri maita erottavat värit ja linjat, jotka yhdistävät päivittäiset kuolemantapaukset, tekevät datasta helpommin lähestyttävää ja tarjoavat katsojalle selkeän kuvan pandemian etenemisestä. Tämä visuaalinen rakenne tukee myös empatiaa: kun katsoja näkee eri maiden vertailun, hän voi samaistua ja ymmärtää, millaista kehitystä eri maissa on tapahtunut. Tässä visuaalisessa kertomuksessa on myös poliittinen ulottuvuus, sillä valitut visualisointiratkaisut voivat tuoda esiin tietyt näkökulmat tai tulkinnat.

Vaikka tämä lähestymistapa on tehokas, se ei ole aina ongelmaton. Esimerkiksi logaritmisen asteikon käyttö voi olla monille katsojille haastavaa, sillä se ei ole yhtä intuitiivinen kuin perinteinen lineaarinen asteikko. Tämä saattaa hämmentää katsojia, jotka eivät ole tottuneet työskentelemään logaritmisten asteikkojen kanssa. Tämän vuoksi on tärkeää tarjota selkeitä selityksiä ja viitteitä, jotka auttavat katsojaa ymmärtämään, mitä visuaaliset valinnat tarkoittavat. Esimerkiksi, Financial Timesin kaaviossa käytetään viivakohtaisia merkintöjä, jotka selventävät, mitä eri kaltevuudet (eli kasvuasteet) tarkoittavat ja kuinka ne vertautuvat toisiinsa.

Erilaiset visualisointiratkaisut, kuten Bhatian ja Reichin (2020) käyttämä kaksinkertainen logaritminen asteikko, voivat tarjota tarkempaa vertailua esimerkiksi uusien tapausten kasvuvauhdista, mutta samalla ne lisäävät kaavion vaikeusastetta. Kaksinkertainen logaritminen asteikko mahdollistaa vielä tarkemman vertailun, mutta se vaatii katsojalta enemmän ymmärrystä siitä, miten logaritmiset asteikot toimivat. Tässäkin tapauksessa visuaalisessa kertomuksessa on mukana tärkeitä visuaalisia elementtejä, kuten diagonaaliset viivat, jotka auttavat ymmärtämään, kuinka eri maat vertautuvat toisiinsa.

Näissä visualisoinneissa on usein mukana myös animaatioita ja vuorovaikutteisia elementtejä, jotka tekevät tiedon esittämisestä entistä kiinnostavampaa ja houkuttelevampaa. Näiden elementtien avulla voidaan tutkia dataa tarkemmin ja ymmärtää sen taustalla olevia trendejä, mikä parantaa katsojan sitoutumista ja ymmärrystä.

On tärkeää muistaa, että vaikka visualisoinnit voivat olla erittäin tehokkaita viestintävälineitä, niiden ymmärtäminen ja tulkitseminen edellyttää katsojalta tietynlaista tietämystä ja kontekstin tuntemusta. Visuaaliset kertomukset ovat usein parhaimmillaan silloin, kun ne yhdistävät datan esittämisen estetiikan ja informaation välittämisen tavalla, joka on helposti lähestyttävää ja intuitiivista. Samalla ne auttavat katsojaa ymmärtämään monimutkaisia ilmiöitä ja tekemään tietoon perustuvia päätöksiä.

Miten visualisoidaan ja kerrotaan datatarinoita tehokkaasti?

Tietojen esittämiseen visuaalisessa muodossa liittyy monia valintoja, jotka vaikuttavat siihen, kuinka hyvin yleisö ymmärtää ja omaksuu esitettävän sisällön. Tämä on erityisen tärkeää, kun käsitellään suuria ja monimutkaisia datamääriä, jotka voivat muuten tuntua liian abstrakteilta tai vaikeasti käsiteltäviltä. Datavisualisoinnin avulla voidaan esittää tiedot selkeämmin ja tehdä niistä helposti ymmärrettäviä. On kuitenkin olennaista pohtia, kuinka paljon yksityiskohtia voidaan uhrata yksinkertaisuuden ja viestin selkeyden hyväksi. Tässä yhteydessä visuaaliset lähestymistavat, kuten väri, linjan paksuus ja etiketit, auttavat ohjaamaan katsojan huomiota ja luomaan selkeän kertomuksen.

Hyvin suunniteltu visuaalinen kertomus auttaa jäsentämään tietoa ja luo visuaalisen kertomuksen, joka yhdistää tiedot, metaforat ja retoriset välineet. Näin syntyy tarina, joka ei ole vain datan esittämistä, vaan myös ymmärrettävää ja tunteisiin vetoavaa kommunikaatiota. Esimerkiksi, jos tarkastellaan tiettyjen maakuntien koronavirustartuntojen kehitystä, voidaan käyttää graafisia elementtejä, kuten viivojen paksuutta ja väriä, joiden avulla on helppo havainnollistaa muutoksia suhteessa aikaisempaan ajankohtaan, kuten 3. toukokuuta.

Erityisesti datatoimittajat, jotka tekevät töitä oman organisaationsa sisällä, ovat kehittäneet erinomaisia esimerkkejä siitä, miten tehokkaasti voidaan kommunikoida visuaalisesti. Tällaisessa lähestymistavassa ei ole kyse pelkästään siitä, mitä data näyttää, vaan myös siitä, kuinka se esitetään: valitaan oikeat värit ja symbolit, jotka tukevat viestin ymmärrettävyyttä. Esimerkiksi maakuntatason kehityksen esittäminen voi olla haastavaa, jos yksityiskohtia on liikaa. Visuaaliset elementit, kuten tekstilabelit ja selitykset, voivat auttaa yleisöä hahmottamaan kokonaiskuvan ilman, että graafi menee liian monimutkaiseksi.

Välineet, kuten ggplot2 R-ohjelmointikielessä, tarjoavat mahdollisuuden luoda räätälöityjä ja tarkasti suunniteltuja visualisointeja. Tällöin graafisia elementtejä voidaan muokata hienovaraisesti, esimerkiksi säätämällä viivapaksuutta ja värejä sen mukaan, miten data kehittyy ajan myötä. Lisäksi tekstilabelit voivat lisätä selkeyttä, mutta niiden asettelu on tehtävä huolellisesti, jotta ne eivät häiritse tai peitä olennaista tietoa.

Esimerkiksi, jos tarkastellaan eri maakuntien kehitystä (kuten Androscoggin, Fairfax ja Bledsoe), voidaan käyttää visuaalisia vihjeitä, jotka kertovat muutosten suuruudesta ja suuntaamisesta. Androscogginin tapauksessa viiva voi olla paksumpi ja väriltään punaisempi, mikä osoittaa nopeampaa kasvua, kun taas Bledsoen tilanne saattaa pysyä lähes muuttumattomana, jolloin viiva on ohuempi ja väri neutraalimpi.

Tällaisissa visualisoinneissa on tärkeää ymmärtää, että graafisen esityksen tulee palvella viestin selkeyttä. Jos esimerkiksi halutaan korostaa, kuinka paljon tietty maakunta on kasvanut verrattuna toisiin, se voidaan tehdä värikoodauksella tai kokoeroilla. Tämä ei kuitenkaan saa tehdä dataa vaikeasti tulkittavaksi tai liikaa yksityiskohtia täyteen. Näin ollen on tärkeää valita graafiset elementit huolellisesti, jotta viesti ei huku visuaalisten yksityiskohtien alle.

Tietojournalismi ja datan visualisointi ovat kehittyneet valtavasti viime vuosina. Esimerkiksi Cédric Schererin työ posit::conf-tilaisuudessa 2023 esitteli erinomaisia käytäntöjä ja tekniikoita ggplot2:n parissa, joka on yksi suosituimmista työkaluista datavisualisoinnin ammattilaisille. Hänen työpajansa tarjosi yksityiskohtaisia ohjeita siitä, kuinka luoda visuaalisia elementtejä, jotka tukevat datan kertomaa tarinaa.

Lisäksi Kieran Healy on kirjoittanut käytännönläheisen oppaan, joka kattaa datan visualisoinnin perusteet ja tarjoaa syvällisen katsauksen siihen, kuinka visuaaliset välineet voivat muuttaa datan kertomista tehokkaaksi ja ymmärrettäväksi. Tämä kirja on erinomainen resurssi niille, jotka haluavat syventää tietämystään datan visuaalisesta esittämisestä ja analysoinnista.

On tärkeää huomata, että visuaalisessa kertomuksessa ei ole kyse vain graafien luomisesta, vaan myös siitä, kuinka tietoa voidaan välittää yleisölle tavalla, joka herättää tunteita ja ymmärrystä. Se on prosessi, jossa yhdistyvät visuaalinen estetiikka ja analyyttinen tarkkuus, ja jossa graafiset elementit tukevat viestin esittämistä ilman, että ne vievät huomiota itse sisällöstä.