Kielimallit tarjoavat monia mahdollisuuksia parantaa tekstin luokittelua ja lisätä luotettavuutta erityisesti datan laajentamismenetelmissä. Yksi tunnetuimmista lähestymistavoista on sananvaihto, jossa alkuperäiset sanat korvataan samankaltaisilla sanoilla, jotka säilyttävät alkuperäisen lauseen merkityksen ja rakenteen. Tämä lähestymistapa on saanut paljon huomiota erityisesti niiden tekniikoiden myötä, jotka käyttävät kielimalleja tai sanamallien upotuksia (embeddings).

Erityisesti Li, Cohn ja Baldwin [250] ovat kehittäneet menetelmän, jossa valitaan parhaiten sopivat sanat korkealla todennäköisyydellä. Tätä varten hyödynnetään kielimallia, joka arvioi, kuinka hyvin sana sopii kontekstiin. Kuitenkin heidän tutkimuksensa tulokset ovat olleet monivivahteisia, ja menetelmä on tuottanut vaihtelevaa tarkkuutta. Yksi tärkeä seikka tässä on, että sananvaihtomenetelmien soveltaminen ei aina tuota parannuksia suorituskyvyssä, koska ne voivat vaikuttaa mallin kykyyn tunnistaa tehtävän luonteen ja säilyttää tärkeitä ominaisuuksia kuten luokan ennustamista.

Alzantot et al. [17] laajentavat tätä lähestymistapaa yhdistämällä kielimallin suodattimen hyökkäyksenvastaisessa esimerkkigeneraattorissaan. He käyttävät vain niitä sanoja, jotka maksimoivat kohdemallin ennustetun luokan todennäköisyyden, mutta eivät ole parantaneet testauksessa saatuja tuloksia. Toisaalta he ovat onnistuneet tekemään mallista kestävämmän haitallisille hyökkäyksille.

Sanamaailman upotuksia hyödynnetään usein myös tehtäväkohtaisesti, kuten Kashefin ja Hwan [190] tutkimuksessa, jossa korvataan sanat tietyllä, tehtävälle optimaalisella tavalla. Tämä osoittaa, kuinka erilaiset laajentamisstrategiat voivat vaikuttaa tekstin ymmärtämiseen ja luokittelutarkkuuteen.

Kielimallit, kuten LSTM-mallit, ennustavat seuraavat sanat tekstissä aiemman kontekstin perusteella ja voivat siten auttaa tunnistamaan sanat, jotka sopivat parhaiten tiettyyn kontekstiin. Kobayashi [209] käyttää LSTM-mallia etsiäkseen sopivia korvauksia, mutta tämä lähestymistapa ei aina ole turvallinen, koska se saattaa muuttaa alkuperäisen tekstin semantiikkaa, mikä voi aiheuttaa väärien luokkien liittämistä laajennettuihin tietoihin.

Kobayashin lähestymistapaa kehitettiin edelleen lisäämällä etiketin huomioiminen kielimallin ennustuksessa, niin sanottu "label-conditional language model" (LC-LM). Tätä lähestymistapaa on jatkettu edelleen BERT-mallissa, josta tuli c-BERT [491]. Tämä uusi malli on label-conditional ja on osoittanut parempaa suorituskykyä verrattuna aiempiin menetelmiin. Suoritustesteissä c-BERT paransi luokittelutarkkuutta merkittävästi verrattuna perinteisiin kielimalleihin, erityisesti tehtävissä, joissa dataa oli rajoitetusti.

Kuitenkin c-BERT:in soveltaminen tuo mukanaan myös haasteita. Esimerkiksi, kun datassa on vähän esimerkkejä, mallin lisääminen saattaa heikentää tarkkuutta ja estää mallin oppimista kunnolla. Tämän vuoksi Hu et al. [160] ehdottavat c-BERT:in yhdistämistä vahvistusoppimiseen, jossa mallia voidaan hienosäätää samalla kun se oppii tehtävää tavallisessa valvotussa ympäristössä.

Vaikka kielimallien käyttö sananvaihdossa ja laajentamisessa on lupaavaa, on tärkeää huomioida, että tämä lähestymistapa ei ole aina täydellinen. Esimerkiksi datan laadun parantaminen voi olla haastavaa, jos käytettävät mallit eivät pysty säilyttämään alkuperäisten sanojen semantiikkaa tai jos data on vähäistä. Lisäksi monivivahteisten sanojen käsittely saattaa heikentää luokittelumallin tarkkuutta, jos kyseiset sanat sisältävät monia eri merkityksiä, kuten tutkimuksessa TinyBERT:in osalta käy ilmi [183].

Kokonaisuudessaan voidaan todeta, että sananvaihtomenetelmät, erityisesti kielimallien tukemat lähestymistavat kuten c-BERT, tarjoavat monia mahdollisuuksia parantaa tekstiluokittelua ja estää mallin altistumista haitallisille hyökkäyksille. Tämä tekee niistä arvokkaita työkaluja erityisesti luokittelutehtävissä, joissa datan laajentaminen on keskeistä. Kuitenkin, kuten kaikkien menetelmien kohdalla, on tärkeää tasapainottaa laajentamisen hyödyt ja mahdolliset riskit, jotka liittyvät luokkien vääristymiseen tai alkuperäisten merkitysten häviämiseen.

Miten tekstin dataaugmentaatio vaikuttaa luokittelun luotettavuuteen ja tutkimuksen kehityssuuntiin?

Tekstin dataaugmentaatio on keskeinen tekijä koneoppimisen ja erityisesti tekstiluokittelun kehityksessä. Pienet muutokset, kuten yksittäisten sanojen tai merkkien muokkaus, voivat vaikuttaa merkittävästi luokitteluluokkaan. Esimerkiksi lauseen "En voi uskoa, että pidän elokuvasta" muuttaminen muotoon "En voi uskoa, että pidän elokuvasta" saattaa pienesti muuttaa mallin ennustetta. Tämä herättää kysymyksen siitä, miten ominaisuustilassa (feature space) tuotetut vastustavat esimerkit vaikuttavat luokittelun vakauteen ja onko mahdollista erottaa ne tapaukset, joissa pienet muutokset muuttavat luokkaa, niistä, joissa suuremmatkin muutokset säilyttävät luokan ennallaan. Tämän selvittäminen on tärkeää, mutta vaikeaa korkean ulottuvuuden numeerisen esityksen vuoksi. Myös ominaisuustilan interpolaatioiden takaisinkääntäminen alkuperäiseen datatilaan on haasteellista, vaikka esimerkiksi koodaaja-purkuarkkitehtuurit, kuten Liu et al. ja Wan ym., mahdollistavat osittain tämän prosessin. Tällainen interpoloitujen instanssien tarkastelu avaa lupaavan tutkimussuunta, jossa interpolaatioita datatilassa voitaisiin syvällisemmin analysoida.

SUB2-menetelmä edustaa tätä lähestymistapaa korvaamalla alilausekkeita datatilassa, mutta sen monimuotoisuus on rajallinen, mikä korostaa tarvetta entistä monipuolisemmille menetelmille. GPT-3:n interpolointikyvyt ovat osoittautuneet erityisen kiinnostaviksi, ja niiden tutkiminen voi tuoda uusia näkökulmia. On myös huomattava, että huonommilla menetelmilläkin voi olla parempi suorituskyky, mikäli ne on integroitu järkevästi. Esimerkiksi Jungiewiczin ja Smywinski-Pohlin työ osoittaa, että synonyymikorvaus on hyödyllisintä, kun se lisää mallin tappiofunktiota, mikä viittaa siihen, että jo olemassa olevia menetelmiä voidaan kehittää ja hienosäätää tehokkaammiksi.

Tekstin dataaugmentation tutkimuksessa yleinen ongelma on, että useimmat menetelmät arvioidaan pelkästään ennustetarkkuuden parannusten kautta tiettyihin datasetteihin. Vaikka tämä mittari on keskeinen, on tärkeää huomioida myös muut tekijät, kuten menetelmän laskennallinen vaativuus, kielellinen monimuotoisuus ja konfiguroitavuus. Generatiiviset menetelmät, erityisesti GPT-2-pohjaiset, lupaavat suuria suorituskyvyn parannuksia, mutta ne ovat usein koulutettuja pääasiassa englannin kielelle, mikä rajoittaa niiden kielivalikoimaa. Lisäksi laskenta-aika on merkittävä tekijä: esimerkiksi Bayerin ym. GPT-2-menetelmä voi vaatia jopa 30 sekuntia yhden esimerkin generointiin, mikä voi olla liian hidasta kriisitilanteiden nopeaa reagointia ajatellen.

Tutkimusyhteisön tulisi siksi pyrkiä laatimaan joustavia ja kattavia standardeja menetelmien vertailua varten, kuten on tehty joissakin muissa koneoppimisen osa-alueissa (esim. few-shot learning, luonnollisen kielen generointi). Yksi yleinen datasetti ei todennäköisesti kykene kattamaan kaikkia dataaugmentation -menetelmien erityispiirteitä, mutta pienimuotoinen benchmark, joka kattaa erilaiset oppimisasetelmat (kuten few-shot ja perinteinen oppiminen) olisi toivottava. On myös syytä valita testidatat huolella niin, ettei testidata ole mukana mallien koulutusmateriaalissa, sillä tämä vääristäisi tuloksia. Benchmarkien tulisi olla riittävän pieni, jotta menetelmien tarkastelu ja vertailu olisi joustavaa ja ajantasaista.

Lisäksi tekstin dataaugmentation -menetelmien vaikutusten ymmärtäminen on edelleen rajallista. Joissakin menetelmissä, kuten merkitystä muuttamattomissa parafraaseissa, parannukset ovat selkeästi loogisia. Sen sijaan ominaisuustilan muutoksiin perustuvat menetelmät, kuten vastustavat esimerkit tai interpolaatio, ovat vaikeasti tulkittavissa ja visualisoitavissa. Tämä erottaa tekstin augmentaation kuvanmuokkauksesta, jossa parannusten mekanismit ovat usein selkeämpiä. Syvällisempi ymmärrys näistä prosesseista voi tuoda merkittävää hyötyä mallien kehittämiseen ja luotettavuuden parantamiseen.

Tekstin dataaugmentationin tutkimuksessa on siis tärkeää edetä niin menetelmien monipuolisuuden lisäämisessä kuin niiden vaikutusten ja rajoitusten selkeyttämisessä. Pelkän tarkkuuden korottamisen lisäksi on huomioitava käytännön tekijät, kuten resurssitehokkuus ja sovellettavuus erilaisiin kieliin ja käyttötilanteisiin. Lisäksi tutkimus vaatii monitieteistä yhteistyötä niin laskennallisen tekniikan kuin kielen ymmärryksen näkökulmista, jotta menetelmistä saadaan irti niiden täysi potentiaali.

Miten vähäisillä tiedoilla voidaan parantaa kyberturvallisuuden uhkatiedon luokittelua?

Kyberuhkatiedon kerääminen avoimista lähteistä on noussut yhä tärkeämmäksi osaksi järjestelmien turvallisuuden varmistamista ja ylläpitoa, sillä järjestelmät kasvavat ja monimutkaistuvat jatkuvasti. Avoimet lähteet tarjoavat arvokasta tietoa, mutta samalla ne altistuvat tiedon ylikuormitukselle. Tällöin on hyödyllistä hyödyntää koneoppimismalleja, jotka tiivistävät tarvittavan tiedon olennaisimpaan muotoon. Aikaisemmat tutkimukset ovat kuitenkin osoittaneet, että nykyiset luokittimet eivät pysty riittävästi erottamaan nousevia kyberturvallisuustapahtumia, koska niiden yleistämiskyky on heikko. Tässä yhteydessä onkin kehitetty uusi lähestymistapa, jossa luodaan uusi luokitin jokaista uutta tapausta varten. Tämä kuitenkin vaatii suuria määriä merkittyjä tietoja perinteisillä koulutusmenetelmillä, mikä on usein epärealistista ja aikaa vievää.

Esittelemämme lähestymistavan tavoitteena on vähentää tiedon merkitsemistarvetta hyödyntämällä useita vähäisen datan menetelmiä, kuten siirto-oppimista, tietojen laajentamista ja muutaman esimerkin oppimista (few-shot learning). Näiden menetelmien yhdistämisellä voidaan kouluttaa laadukas luokitin hyvin pienellä määrällä merkittyjä esimerkkejä. Tämä lähestymistapa mahdollistaa sen, että jopa hyvin harvojen esimerkkien avulla voidaan saavuttaa merkittäviä parannuksia luokittelutehokkuudessa verrattuna perinteisiin menetelmiin. Esimerkiksi tutkimuksessa käytetty mallitieto, joka perustui vuoden 2021 Microsoft Exchange Server -tietomurron tietoihin, antoi yli 21 pisteen parannuksen F1-arvossa verrattuna tavanomaiseen koulutukseen ja yli 18 pistettä verrattuna nykyisiin huipputason menetelmiin.

Miten tämä vähäisillä tiedoilla tapahtuva luokittelu toimii käytännössä? Kyberuhkatiedon kerääminen avoimista lähteistä, kuten Twitteristä, on tärkeää, sillä sieltä saadaan ajankohtaista ja relevanttia tietoa. Kyberturvallisuus, tai tarkemmin sanottuna kyberuhkatiedon kerääminen (CTI, Cyber Threat Intelligence), on kuitenkin erittäin dynaamista. Tiedon luonne vaihtelee merkittävästi aikaisemmista tapahtumista – kyse on uusista hyökkäysvektoreista, erityisistä hyökkäystavoista, kohdistetuista toiminnoista ja niin edelleen. Näiden dynaamisten muutosten vuoksi perinteiset valvontamenetelmät, kuten valvottu koneoppiminen, eivät pysty käsittelemään sitä tietoa tehokkaasti, koska ne eivät kykene huomioimaan uusien uhkatapahtumien erityispiirteitä.

Tässä yhteydessä on tärkeää ymmärtää, että aktiivisen oppimisen menetelmä voi tietyssä määrin auttaa tietojen merkitsemistä tehokkaammin. Se tukee prosessia, jossa vain ne tiedot, joilla on suurin oppimisarvo, merkitään koneoppimismalleille. Vaikka aktiivinen oppiminen vähentää merkittyjen tietojen määrää, sitä ei kuitenkaan voi pitää riittävänä ratkaisuna, koska sekin vaatii edelleen suhteellisen suuren määrän merkityksellisiä esimerkkejä. Tässä vaiheessa siirrymme vielä tehokkaampiin menetelmiin, kuten muutaman esimerkin oppimiseen (few-shot learning), joka todella mahdollistaa vähäisen datan käytön ilman merkittäviä tarkistuksia ja laajentamista.

Tutkimuksissa esitetyt tulokset ovat selkeitä: vaikka perinteiset menetelmät voivat vaatia tuhansia esimerkkejä tehokkaan luokittimen kouluttamiseen, ehdotettu lähestymistapa mahdollistaa korkealaatuisen luokittimen luomisen vain muutamalla esimerkillä. Esimerkiksi vain 32 merkittyä esimerkkiä käyttäen saavutettiin lähes sama suorituskyky kuin 1800 esimerkin kanssa koulutetuilla malleilla. Tämä mahdollistaa aiempaa joustavamman ja nopeamman reagoinnin kyberuhkatilanteisiin, joissa uuden tiedon kerääminen on elintärkeää.

Lopuksi on tärkeää huomioida, että tämä lähestymistapa ei ole vain akateeminen malli, vaan sillä on käytännön sovelluksia esimerkiksi kyberturvallisuuden valvontakeskuksissa, hätätilanteiden vastatoimissa sekä infrastruktuurin suojaamisessa. Tiedon kerääminen avoimista lähteistä, kuten sosiaalisen median alustoilta, on olennaista, mutta samalla on tärkeää tunnistaa myös mahdolliset harhat ja puolueellisuudet tiedon lähteistä. Koska kyberuhkatieto on usein dynaamista ja muuttuu nopeasti, sen kerääminen ja analysointi vaatii jatkuvaa päivittämistä ja kykyä reagoida nopeasti muuttuvissa olosuhteissa.