Tiedon järjestäminen ja kuvaaminen on analyysiprosessin keskeinen vaihe, mutta monelle se saattaa tuntua itsestäänselvyydeltä. Tässä vaiheessa luodaan perusta, joka määrittelee, mitä työkaluja ja menetelmiä voidaan käyttää tiedon analysointiin. Tämän vuoksi tietojen kuvaaminen ja niiden rakenteen ymmärtäminen on välttämätöntä, erityisesti sosiaalitieteellisissä datatieteellisissä projekteissa, joissa useimmiten käytetään olemassa olevia aineistoja.

Dataa on kuvattava ja jäsennettävä tarkasti ennen sen analysointia, sillä usein ei ole selvää, vastaavatko aineistot riittävästi tutkimuskohteena olevia ilmiöitä tai populaatioita. Tämä lisää epävarmuutta ja tekee alkuperäisten tiedon käsittelyvaiheiden, kuten tiedon kuvaamisen ja tutkimisen, entistä tärkeämmiksi. Alussa tehtävä data-analyysin järjestäminen vaikuttaa pitkälti siihen, miten projekti etenee ja kuinka luotettavia tulokset ovat.

Tämä luku keskittyy tiedon perusperiaatteisiin ja siihen, kuinka tiedot voidaan kuvata ja organisoida tavalla, joka helpottaa analyysiä ja sen myöhempiä vaiheita. Käytämme esimerkkinä New Yorkin Citibike-järjestelmän dataa, jotta voimme ymmärtää tiedon käsittelyn perusperiaatteet ja nähdä käytännön esimerkkejä siitä, kuinka tieto järjestetään ja luokitellaan.

Tiedon kuvaamisen sanasto

Konsistentti sanasto on erityisen tärkeä, kun työskentelemme moderneilla visualisointityökaluilla, kuten ggplot2, Tableau ja Vega-Lite. Käytämme tätä sanastoa ja laajennamme sitä myös visuaalisen suunnittelun perusperiaatteisiin myöhemmin. Tällainen yhteinen sanasto tekee tiedon käsittelystä ja visualisoinnista sujuvampaa, koska se auttaa ymmärtämään, mitä tietoja ja muuttujia käytetään ja kuinka ne liittyvät toisiinsa.

Data kehykset ja muuttujat

Tässä kirjassa työstämme tietokehysrakenteita. Data frame on taulukkomainen rakenne, jossa rivit edustavat havaintoja ja sarakkeet muuttujia. Esimerkiksi R-ohjelmointikielessä muuttujat ovat vektoreita, jotka ovat kaikilta osiltaan yhtä pitkiä. Tietyissä tapauksissa, kun havaintoissa on puuttuvia arvoja, ne täytetään erityisellä symbolilla, kuten NA. Tämä rakenne on erityisen hyödyllinen silloin, kun halutaan käyttää “tidyverse” -työkaluja ja paketteja, jotka vaativat tietynlaista tiedon organisointia.

Muuttujan tyypit ja mittaustasot

Yksi tärkeimmistä käsitteistä on se, kuinka tietoja luokitellaan ja mitataan. Stevensin (1946) kehittämä luokittelu on keskeinen, jossa muuttujat jaetaan kahteen pääluokkaan: kategorisiin muuttujat ja mittaustasot. Kategoriset muuttujat, kuten sukupuoli, asiakassegmentit ja luokitellut järjestykset (esimerkiksi 1., 2. ja 3. sijat), eroavat mittausmuuttujista, kuten etäisyys, ikä ja matka-aika.

Kategoriset muuttujat jaetaan edelleen kahta tyyppiin: epäjärjestykseen (nimellinen) ja järjestykseen (ordinaali). Mittausmuuttujat puolestaan jaetaan kolmeen tasoon: intervallimittaukset, joissa kahden arvon välinen ero on merkityksellinen, ja suhdeluvut, joissa nollalla on merkitys ja arvojen välinen suhde voidaan laskea.

Tämä muuttujan luokituksen ymmärtäminen on tärkeää, koska se määrittelee, minkälaista tilastollista analyysiä voidaan käyttää kyseiselle datalle. Esimerkiksi lämpötilan ja etäisyyden kaltaisia mittauksia voidaan käsitellä tietyllä tavalla, mutta kategorisia muuttujia, kuten puolueet tai kaupunginosa, käsitellään eri tavoin.

Havaintojen tyypit

Havaintojen luokittelu on keskeinen osa datan jäsentämistä. Havainto voi olla joko koko populaatiota edustava tai otoksena käytetty. Sosiaalitieteellisessä datatieteessä käytetään usein koko populaation kattavia aineistoja. Esimerkiksi Citibike-datasetti sisältää kaikkien käyttäjien ajomatkat, mikä tekee siitä populaatiotason aineiston, mutta tämä ei välttämättä ole täysin luotettavaa, jos analyysiä käytetään yleistämiseen laajempaan kaupungin pyöräilykulttuuriin.

Passiivisesti kerätty data voi kuitenkin olla etu perinteisesti kerättyyn aktiiviseen dataan verrattuna, sillä se ei kärsi samoista virheistä, kuten ei-vastausvirheistä tai sosiaalisen toivottavuuden vinoumasta.

Tidy-data

Tidy data -käsitteen ydin on yksinkertainen mutta tehokas: jokaisessa sarakkeessa tulisi olla vain yksi muuttuja ja jokaisessa rivissä vain yksi havainto. Tiedon jäsentäminen tällä tavalla helpottaa sen käsittelyä ja analysointia, koska tiedon strukturointi pysyy yhtenäisenä. Tidy-data -rakenteen avulla voidaan hyödyntää tehokkaasti R:n vektoroituja funktioita ja työkaluja tiedon muokkaamiseen ja muotoiluun.

Tidy-datan säännöt ovat yksinkertaiset mutta tärkeitä:

  1. Kukin muuttuja muodostaa oman sarakkeensa.

  2. Kukin havainto muodostaa oman rivinsä.

  3. Kukin havaintoyksikkö muodostaa oman taulukon.

Tidy-datan hyöty on siinä, että se mahdollistaa saman työkalupaketin käyttöön ottoa riippumatta siitä, kuinka suuri tai pieni datasetti on. Jos data on järjestetty tämäntyyppisesti, se on helpompi käsitellä ja analysoida, ja se toimii hyvin myös silloin, kun käytetään dplyr- ja tidyr-paketteja R-kielessä.

Tiedon luonne ja rakenteen ymmärtäminen

Datatieteellisen projektin alkuvaiheessa on erityisen tärkeää ymmärtää, kuinka tietoja voidaan luokitella ja millaista käsittelyä ne vaativat. Hyvin jäsennelty tiedon kuvaaminen auttaa myös tekemään tulevasta analyysistä johdonmukaista ja toistettavaa. Tämä on tärkeää paitsi datatieteellisessä tutkimuksessa myös yhteisöjen ja organisaatioiden näkökulmasta, joissa datan eheys ja läpinäkyvyys voivat vaikuttaa merkittävästi päätöksentekoon ja politiikan muotoiluun.

Kuinka mallien arviointi ja jälkianalyysit voivat parantaa tulosten luotettavuutta?

Kun tarkastellaan mallin arviointia ja sen tarkempaa analysointia, on tärkeää huomata, että yksittäinen mallin tulos ei ole aina riittävä luotettavan johtopäätöksen tekemiseksi. Erityisesti monimuuttujamallien yhteydessä on tärkeää varmistaa, että mallin jäännökset, eli residuaalit, eivät ole tilastollisesti riippuvaisia toisistaan, ja että ne eivät ole tilan tai alueen mukaan vinoutuneita.

Esimerkiksi kuviosta 6.8 voidaan nähdä, kuinka alueellisten vaikutusten huomioiminen mallissa voi parantaa tuloksen luotettavuutta. Mallissa, joka on päivitetty ottamalla huomioon alueelliset kiinteät vaikutukset (Fixed Effect, FE), jäännöksistä tulisi odottaa, että ne eivät enää ole tilastollisesti autokorreloituneita. Tämä johtuu siitä, että alueelliset vaihtelut on otettu huomioon FE-termin kautta, jolloin alueelliset epätarkkuudet eliminoidaan.

Tällaisen mallin arviointi vaatii usein jäännöksistä luotavia graafisia esityksiä, kuten alueiden residuaaleja esittäviä karttoja. Näissä kartoissa voimme vertailla, kuinka hyvin mallin ennusteet vastaavat todellisia havaintoja eri alueilla ja arvioida, onko alueellisia eroja jäänyt huomioimatta. Jos esimerkiksi mallissa havaitaan, että tietyillä alueilla "Leave"-äänestys on selvästi yli- tai aliedustettu, se voi viitata siihen, että malli ei ole täysin ottanut huomioon alueellisia eroja.

Jäännöksistä luodut visualisoinnit voivat sisältää niin sanottuja "lineup"-graafeja, joissa alkuperäiset mallit yhdistetään sattumanvaraisesti permutoituihin jäännöksiin. Tämä luo visuaalisesti verrattavan tilanteen, jossa alkuperäinen malli voidaan suhteuttaa satunnaisiin, mahdollisiin vaihtoehtoisiin malleihin. Tällöin voidaan paremmin arvioida, kuinka todennäköisesti saatu malli selittää havaitut erot ja eroaa sattumanvaraisista vaihtoehdoista.

Tässä prosessissa käytetään usein "functional-style programming" -tekniikoita, kuten nest(), map() ja augment()-komentoja, jotka tekevät mallin jäännöksistä käsiteltäviä ja visualisoitavia. Näiden avulla voidaan helposti purkaa mallin jäännökset ja vertailla niitä permutoituihin arvoihin. Tämä vaatii kuitenkin syvällisempää ymmärrystä siitä, miten tilastolliset paketit, kuten tidymodels ja rsample, toimivat. Erityisesti jäännösten permutointi ja vertailu voivat paljastaa, onko malli todella hyödyllinen vai onko se saattanut tuottaa tilastollisesti epäluotettavia ennusteita.

Jatkokäsittelyssä mallin jäännöksistä saatu data voidaan liittää alkuperäisiin tilastollisiin aineistoihin, kuten alueiden rajoihin ja muihin maantieteellisiin tekijöihin. Tällöin on tärkeää käyttää oikeita yhdistämistekniikoita, kuten inner_join() ja facet_wrap(), jotka mahdollistavat visualisoinnin eri permutaatioiden ja alueiden välillä. Tämä vaihe auttaa myös tutkimaan, kuinka eri alueilla esiintyvät poikkeamat vaikuttavat kokonaismallin ennusteisiin.

On myös syytä huomioida, että permutoidut mallit eivät ainoastaan tarjoa tietoa mallin tarkkuudesta, vaan myös mahdollistavat tilastollisten poikkeamien havaitsemisen. Jos perinteinen malli ei pysty riittävän hyvin erottamaan todellisia vaikutuksia satunnaisista vaihteluista, on tärkeää huomioida mahdolliset alueelliset, kulttuuriset tai demografiset tekijät, jotka voivat vaikuttaa mallin ennusteisiin. Tällöin on suositeltavaa lisätä malleihin tarkempia muuttujia ja käyttää monivaiheisia analyysejä, jotka ottavat huomioon alueelliset ja aikaperusteiset tekijät.

Tämä prosessi ei rajoitu vain tilastollisiin analyyseihin, vaan se edellyttää myös tarkkaa graafista esitystapaa, joka voi tukea tulosten tulkintaa ja antaa lukijalle mahdollisuuden nähdä, kuinka alueelliset tai yksilölliset tekijät vaikuttavat mallin ennusteisiin. Yhteenvetona voidaan todeta, että mallin arviointi ei ole pelkästään ennusteiden tarkkuuden arviointia, vaan se vaatii myös syvällistä ymmärrystä mallin rakenteista, jäännöksistä ja tilastollisista poikkeamista.

Kuinka visualisoida epävarmuutta ja mitä siihen liittyy?

Epävarmuuden esittäminen visuaalisesti on yksi haastavimmista tehtävistä tietojen visualisoinnissa. On yleisesti tiedossa, että tiedon visuaalinen esitys ei aina vastaa sen todellista tulkintaa. Visualisoinnissa on usein taipumus liittää liiallinen tarkkuus dataan, vaikka se ei olekaan oikeasti niin tarkkaa. Epävarmuuden visualisointi on eräänlainen tasapainon hakeminen sen välillä, kuinka tarkasti voidaan esittää dataa ja kuinka paljon epävarmuus on otettava huomioon. Tässä luvussa tarkastelemme kartografian ja tietoinformaatiovisualisoinnin tutkimuksia epävarmuuden esittämisestä sekä tekniikoita, joiden avulla voidaan visuaalisesti koodata parametrien epävarmuutta.

Kartografit ja tiedon visualisoinnin tutkijat ovat pitkään pohtineet, miten epävarmuus voidaan esittää visuaalisesti käyttäen erilaisia visuaalisia kanavia tai muuttujia. Näitä visuaalisia muuttujia on monia, ja ne voivat vaihdella siitä, kuinka intuitiivisesti ne viestivät epävarmuutta, aina siihen, kuinka hyvin ne erottavat toisiaan tiheissä ja monimutkaisissa visualisoinneissa. Esimerkiksi hämäryys, alueen sijainti ja jopa visuaalisen kuvion "raukentaminen" voivat toimia epävarmuuden indikaattoreina. Tutkimukset ovat osoittaneet, että tietyt visuaaliset muuttujat, kuten epätarkkuuden korostaminen hämäryydellä, voivat toimia hyvin, vaikka niitä ei aina olisi helppo intuitiivisesti ymmärtää. Tällaisia visuaalisia muuttujia ovat esimerkiksi koko, läpinäkyvyys ja väriarvot. Sketsi-tyylinen esitys, jossa käytetään epätäsmällisyyttä tai huolettomuutta visuaalisessa koodauksessa, voi myös olla yksi tehokas tapa kuvata epävarmuutta, vaikka se ei aina ole yhtä selkeä kuin tarkasti rajatut muodot.

Yksi tärkeä periaate epävarmuuden visualisoinnissa on, että "tarkkuutta ei tulisi koodata symboleilla, jotka näyttävät tarkoilta." Tämä periaate on erityisen tärkeä, kun visualisoimme esimerkiksi sääennusteita tai muita epävarmuutta sisältäviä ilmiöitä. Esimerkiksi Yhdysvaltain kansallisen sääpalvelun (NWS) hurrikaanien ennustekartassa käytettävä "kartiokaavio" antaa vaikutelman, että myrsky laajenee, vaikka todellisuudessa epävarmuus kasvaa, mitä kauemmas myrskyn ennustettu reitti menee. Tällaiset vahvat rajat voivat johtaa väärinymmärryksiin, joissa ihmiset ajattelevat, että alueet kartan sisällä ovat vaarassa, ja alueet sen ulkopuolella ovat turvallisia, vaikka tämä ei olekaan mallin tarkoitus. Van Goethemin (2014) uudistuksessa väriarvot otettiin käyttöön esittämään eri todennäköisyysluokkia, mikä parantaa visuaalista erottelukykyä ja vähentää virheellisiä tulkintoja.

Epävarmuuden esittäminen visuaalisesti on myös monimutkainen prosessi, jossa täytyy pystyä erottamaan eri tasoiset epävarmuudet ja tuomaan ne esiin datan tiheydestä ja monimutkaisuudesta huolimatta. Esimerkiksi on tärkeää tunnistaa, että tietyissä konteksteissa saattaa olla tarpeen käyttää epätarkempia visuaalisia tekniikoita, kuten hämäryyksiä ja sketsikuvia, kun taas toisissa, tarkempia välineitä ja selkeitä rajauksia saattaa olla sopivampaa käyttää.

Epävarmuuden visualisoinnin keskiössä on myös se, kuinka esitetään todennäköisyyksiä ja suhteellisia frekvenssejä. Esimerkiksi jos tarkastellaan liikenneonnettomuuksia, kuten STATS19-tietoja, joissa analysoidaan jalankulkijoiden vammautumisasteita eri alueilla, huomataan, että vaikka kahden alueen, kuten Bristolin ja Sheffieldin, välillä on suuri ero onnettomuuden vakavuuden tasoissa, on vaikea hahmottaa tätä eroa pelkästään numeerisesti tai tavanomaisilla kaavioilla. Tällöin visuaaliset tekniikat voivat auttaa paremmin ymmärtämään, miten suuri ero oikeasti on, ja tuoda esiin epävarmuudet, joita perinteiset kaaviot eivät välttämättä pysty käsittelemään.

Visuaalisen epävarmuuden esittämisessä on tärkeää huomioida myös, miten visuaaliset elementit voivat ohjata katsojan ajattelua ja päätöksentekoa. Esimerkiksi, kun visualisoidaan todennäköisyyksiä tai suhteellisia frekvenssejä, kuten jalankulkijan vammautumisasteita eri alueilla, on tärkeää valita oikeat visuaaliset kanavat, jotka eivät johda katsojaa virheellisiin johtopäätöksiin. Visualisointiin valitut värit, muodot ja symbolit voivat joko tukea tai vääristää tietojen tulkintaa, ja tämä on otettava huomioon erityisesti silloin, kun visualisoidaan epävarmuuden eri tasoja.

Tärkeää on ymmärtää, että epävarmuuden esittäminen ei ole vain tekninen haaste, vaan myös kommunikaation haaste. Jos epävarmuus esitetään väärin, se voi johtaa virheellisiin päätöksiin ja jopa vaarantaa turvallisuuden, kuten myrskyn ennusteiden tapauksessa. Näin ollen epävarmuuden visuaalinen esitys ei saa koskaan antaa väärää kuvaa tarkkuudesta tai varmuudesta, vaan sen on aina oltava selkeä ja ymmärrettävä kontekstissa, jossa se esitetään.