Kyberturvallisuus on yksi tärkeimmistä ja nopeimmin kehittyvistä tutkimusalueista nykyään. Erityisesti kyberuhkien havaitseminen ja analysointi vaativat tehokkaita työkaluja ja menetelmiä. Tässä tutkimuksessa käsitellään erityisesti syväoppimisen ja siirtoturvallisuuden roolia kyberturvallisuuden parantamisessa. Tarkastelussa on myös tiedon määrän ja laadun haasteet, erityisesti alhaisessa datassa toimivissa järjestelmissä.

Tutkimus alkaa kirjallisuuskatsauksella, jossa tarkastellaan siirtoturvallisuuden, datan augmentoinnin, vähäisen datan oppimisen (few-shot learning) ja kyberuhkatiedon (CTI) keskeisiä käsitteitä. Ehdotettu malli yhdistää uuden siirtoturvallisuuden käsitteen monitasoiseen hienosäätöön, datan augmentoinnin uusimman iteroinnin ja edistyksellisten vähäisen datan oppimismenetelmien. Tässä tutkimuksessa nostetaan esiin myös tärkeä ongelma, joka koskee päivitettyjen datasetien puutetta erityisesti tietyillä tutkimusalueilla. Ratkaisuna julkaistaan erityinen merkitty datasetti, johon on tallennettu erikoistunutta CTI-tietoa.

Arviointi vertaa ehdotetun putken luokittelutarkkuutta vertailutapaukseen, edistyksellisiin vähäisen datan oppimismenetelmiin ja parhaaseen mahdolliseen skenaarioon, jossa käytetään yli 50 kertaa enemmän dataa. Arviointiin sisältyy myös osittain poistomenetelmiä ja lisätyn datan tarkastelua. Nämä kokeet esitetään tarkemmin tutkimuksen luvussa 12.

Koneoppimisen prosessissa, erityisesti ennustamisvaiheessa, ilmenee suuri haaste, joka liittyy mallien herkkyyteen niin sanottuja "adversaarisia esimerkkejä" kohtaan. Nämä esimerkit voivat saada mallin tekemään virheellisiä ennusteita, vaikka ne olisivat hyvin pieniä ja tahallisesti muokattuja. Tutkimuksessa käsitellään tätä ongelmaa ja esitetään uusi lähestymistapa, XAI-Attack, joka yhdistää selitettäviä tekoälymalleja ja adversaarisia esimerkkejä. Tavoitteena on löytää väärin luokiteltuja esimerkkejä ja parantaa mallien robustiutta.

Kun malli on täysin koulutettu, syväoppimisessa on havaittu, että pienet muutokset syötteissä voivat vaikuttaa ennusteisiin merkittävästi. Adversaariset hyökkäykset voivat aiheuttaa ongelmia, mutta tutkimuksessa ehdotettu menetelmä parantaa mallien kykyä tunnistaa nämä vääristymät ja siten parantaa ennustetarkkuutta.

Tämän työn tärkeimpiä havaintoja on sen monipuolisuus ja käytännön merkitys niin kyberuhkatiedon kuin laajemman koneoppimisen tutkimuksen alalla. Erityisesti tutkimus keskittyy kriisitilanteiden hallintaan ja siihen, kuinka tehokkaasti tärkeitä tietoja voidaan poimia suurista tietomääristä. Tämä on tärkeää erityisesti kyberuhkien kohdalla, joissa tiedon ajantasaisuus ja oikeellisuus ovat avainasemassa.

Kriisitilanteet, kuten luonnonkatastrofit tai poliittiset levottomuudet, muistuttavat kyberhyökkäyksiä siinä mielessä, että molemmat vaativat dynaamista reagointia ja reaaliaikaista tietojen käsittelyä. Näin ollen aiemmat tutkimukset kriisitiedon keräämisestä sosiaalisessa mediassa antavat arvokkaita näkemyksiä myös kyberturvallisuuden alalle. Esimerkiksi Kuehnin ja muiden työ kyberuhkatiedon klusteroinnista osoittaa, että erityisesti kyberuhkien osalta klusterointimenetelmät voivat olla hyödyllisiä.

Tässä tutkimuksessa esitelty klusterointiprosessi käyttää NLP-esiprosessointia, upotusten luomista ja klusterointialgoritmeja tiedon liialliselle määrälle, joka on tyypillistä kriisitilanteissa. Testatut upotukset, kuten Word2Vec, FastText ja Sentence-BERT, osoittavat, että upotusten valinta on erittäin tärkeää klusteroinnin merkityksellisyyden kannalta. Erityisesti kriisitilanteet vaativat tietyntyyppisiä upotuksia, jotka heijastavat paikallista kieltä ja kulttuuria, mikä tuo esiin kielen roolin tärkeänä tekijänä.

Erityisesti tämä tutkimus tuo esiin myös automaattisen merkintöjen luontitekniikan, jonka avulla voidaan luoda malleja, jotka jäljittelevät humanitaarisia luokkia. Tämä lähestymistapa voi tuoda huomattavaa lisäarvoa tiedon luokittelussa ja auttaa analyytikoita ymmärtämään ja käsittelemään suuria tietomääriä tehokkaammin.

Tutkimus korostaa, että kyberuhkien ja kriisitilanteiden hallinta vaatii yhä kehittyneempiä ja joustavampia järjestelmiä. Siksi on tärkeää, että tutkimusalueiden rajat ylitetään ja sovelletaan toisiaan täydentäviä tekniikoita, kuten klusterointia, siirtoturvallisuutta ja vähäisen datan oppimista. Koko kyberturvallisuuden kenttä hyötyy uusista ja innovatiivisista lähestymistavoista, jotka voivat merkittävästi parantaa uhkien havaitsemisen ja ennustamisen tarkkuutta.

Miten koneoppimista voidaan hyödyntää kriisitilanteissa tekstidatan luomisessa?

Koneoppiminen kriisitilanteissa on lupaava alue, mutta mallien luominen ja hyvien tulosten saaminen on jatkuva haaste, joka liittyy pääasiassa vähäiseen saatavilla olevaan dataan ja ongelmaan, joka liittyy mallin soveltamiseen tietyn alueen erityispiirteisiin. Kriisitilanteista kerättävän datan käsittely ja analysointi on erityisen monimutkainen tehtävä, ja se vaatii tarkempaa lähestymistapaa. Kriisitilanteiden dataan perustuvat mallit voivat tuottaa hyviä tuloksia, mutta niihin liittyy monia muuttujia, jotka vaikeuttavat tehokasta ja luotettavaa analyysiä.

Kriisitilanteiden datan käytön yhteydessä on tärkeää huomata, että erityisesti kontekstin huomioiminen voi parantaa mallin kykyä tuottaa monipuolisempia ja tarkempia tuloksia. Esimerkiksi toisen arvioinnin aikana havaittiin, että kontekstiriippumattomat mallit, vaikka ne tuottavat usein samankaltaisia tuloksia eri ajankohtina, voivat silti suoriutua erinomaisesti tietyissä tehtävissä. Tämä käy ilmi esimerkiksi Olteanu et al. (2015) tutkimuksen luokittelutehtävissä, joissa saavutettiin jopa 2,1–3,8 %:n parannus F1-mittarissa perusmalliin verrattuna. Vastaavasti, vaikka tiettyjen kriisitilanteiden data saattaa olla liian hajanaista ja vaikeasti sovellettavaa, kontekstin huomioiminen voi parantaa mallin kykyä tuottaa realistisia ja käyttökelpoisia esimerkkejä.

Tämänkaltaisessa datanlaajennusmenetelmässä käytetyt tekstigenerointiteknologiat, kuten GPT-2, osoittautuvat tehokkaiksi työkaluiksi, jotka voivat luoda riittävän monipuolisia ja kohdennettuja esimerkkejä, säilyttäen kuitenkin datan alkuperäisen laadun. Erityisesti lyhyiden ja pitkien tekstien luominen perustuu huolelliseen esikäsittelyyn, joka varmistaa, että luodut esimerkit säilyttävät alkuperäisen luokittelun laadun ja tarkoituksen. Näitä menetelmiä hyödyntäessä on kuitenkin huomattava, että vaikka mallit voivat luoda laajan määrän dataa, generointi voi kestää huomattavan ajan – jopa 10–30 sekuntia per esimerkki. Tässä kohtaa tekstigenerointimenetelmät, vaikka ne ovat tehokkaita, kilpailevat nopeuden suhteen yksinkertaisempien menetelmien kanssa, kuten EDA (Easy Data Augmentation), jotka voivat luoda esimerkkejä lähes reaaliajassa.

Lisäksi koneoppimismallien kouluttaminen kriisitilanteen kaltaisessa ympäristössä, jossa data on harvinaista, vaatii erityistä huomiota siihen, kuinka hyvin malli pystyy sopeutumaan ja oppimaan pienestä datamäärästä. Kriisitilanteiden, kuten pommitusten tai maanjäristysten, luonteen vuoksi, datan monimuotoisuus voi vaihdella suuresti, ja tämä voi vaikuttaa mallin kykyyn tuottaa hyödyllisiä ja luotettavia tuloksia. Tällaisissa tilanteissa, joissa data on epätasapainoista, tekstigenerointimenetelmät voivat olla erityisen hyödyllisiä, sillä ne pystyvät tuottamaan useita variaatioita samasta tapahtumasta tai asiasta, mikä parantaa mallin kykyä ennustaa ja luokitella uutta dataa.

Erityisesti on huomioitava, että vaikka mallit voivat parantaa luokittelutuloksia kriisitilanteissa, niiden soveltaminen ei aina ole yksiselitteistä. Jos luokittelu tai ennustaminen sujuu jo hyvin alkuperäisellä datalla, lisädatan käyttö voi jopa heikentää tuloksia. Tämä on erityisen tärkeää ymmärtää, koska liiallinen data tai sen väärä käsittely voi johtaa mallin ylikuormittamiseen ja heikentää sen ennustuskykyä.

Myös mallit, jotka perustuvat kontekstin huomioimiseen pitkissä teksteissä, voivat olla erityisen hyödyllisiä tietyissä kriisitilanteiden luokittelutehtävissä. Tekstigenerointimenetelmän integroiminen kontekstiin voi parantaa pitkien tekstien tulkintaa ja tehdä niistä tarkempia ja vähemmän geneerisiä. Tämä ei ainoastaan paranna mallin ennustustarkkuutta, mutta myös sen kykyä tunnistaa kriisitilanteiden piirteet ja erikoistuneet tapahtumat.

Lopuksi, vaikka tekstigenerointimenetelmät, kuten GPT-2, ovat tehokkaita ja tuottavat laadukasta dataa, niiden käyttö vaatii aikaa ja resursseja, ja ne voivat olla alttiita kielen rajoitteille. Esimerkiksi GPT-2 on ensisijaisesti suunniteltu englanninkielisille tehtäville, mikä tekee sen soveltamisesta monikielisiin projekteihin haastavaa. Tämä haaste voidaan kuitenkin voittaa käyttämällä muita kielenmallin vaihtoehtoja, jotka ovat monikielisempiä ja nopeampia.