Monissa tietoturvaan liittyvissä tekoälysovelluksissa (CTI) perinteiset karkeat klusterointimenetelmät ja valvotut luokittelijat kohtaavat vakavia haasteita, erityisesti kun käytettävissä oleva data on niukkaa ja tilanne dynaaminen. Tämä johtuu muun muassa siitä, että valvottu oppiminen vaatii usein laajoja merkittyjä aineistoja, joita on vaikea saada nopeassa tai muuttuvassa toimintaympäristössä. Tämän ongelman ytimessä on kysymys: miten suurten kielimallien (Large Language Models, LLM) ohjattua aktiivista oppimista voidaan parantaa siten, että mallin ennakkokoulutuksen hyödyntäminen mahdollistaa korkealaatuisen luokittelun huomattavasti pienemmällä annotointityöllä?

Perinteisessä aktiivisessa oppimisessa esiintyy usein ns. cold-start -ongelma, jossa alussa käytettävissä olevan datan vähyys estää tehokkaan oppimisen. Lisäksi aktiivisen oppimisen mallin ja lopullisen luokittelumallin väliset erot voivat johtaa heikompaan suorituskykyyn, jos molempia ei suunnitella yhteensopiviksi. Tässä ongelmassa suurten esikoulutettujen kielimallien nollashottikyvyt (zero-shot learning) ovat merkittävä etu: ne mahdollistavat palauteen antamisen ilman pitkää uudelleenkoulutusta, ja pienen määrän merkitsemätöntä dataa käyttö riittää. Näin esimerkiksi ActiveLLM-menetelmä voi tarjota nopean ja tehokkaan tavan aktivoida oppiminen jopa silloin, kun käytettävissä on vain muutama esimerkki.

Suuret kielimallit eivät ainoastaan ratkaise cold-start -ongelmaa, vaan niiden hyödyntäminen aktiivisessa oppimisessa on jo osoittautunut ylittävän monia nykyisiä harvojen esimerkkien oppimismenetelmiä, kuten PERFECT ja ADAPET. Lisäksi näitä menetelmiä voidaan yhdistää muihin hienosäätö- ja datanlisäysmenetelmiin, mikä edelleen parantaa luokittelun tarkkuutta. Tämä korostaa, että suurten kielimallien hyödyntäminen aktiivisessa oppimisessa avaa uusia mahdollisuuksia myös erittäin rajoitetun datan tilanteissa.

Tekstiaineiston lisäys (data augmentation) on toinen tärkeä menetelmä parantaa luokittelun suorituskykyä. Perinteiset tekstinmuokkaustekniikat, kuten synonyymien vaihtaminen tai käännösten pyöräytykset, ovat kuitenkin usein riittämättömiä esikoulutettujen kielimallien varhaiseen versioon verrattuna, koska mallit ovat immuuneja monille yksinkertaisille muunnoksille. Siksi uudenlainen tekstinlisäysstrategia, joka perustuu generatiivisiin ominaisuuksiin kuten GPT-2- tai GPT-3-malleihin, tarjoaa merkittävän edun: se voi tuottaa täysin uusia kielellisiä rakenteita, jotka ovat tarpeen mallin rikastamiseksi ja parantamiseksi erityisesti harvojen esimerkkien konteksteissa. Näitä generatiivisia malleja ohjataan esimerkiksi ihmisen valvonnassa toimivalla upotusten suodatusmenetelmällä, jotta tuotettu data säilyttää alkuperäisen luokittelun kannalta olennaiset piirteet.

Siirto-oppimisen (transfer learning) menetelmät ovat avainasemassa vähentämässä syväoppimisen riippuvuutta suurista koulutusdatan määristä. Kun esikoulutetut mallit kuten BERT sovitetaan tiettyyn sovellusalueeseen, kuten kyberturvallisuuteen, saavutetaan merkittäviä parannuksia niin luokittelussa kuin sekvenssimerkinnöissäkin. Esimerkiksi CySecBERT-malli, joka on koulutettu huomattavasti laajemmalla ja pidemmällä aineistolla kuin aiemmat CyBERT-mallit, parantaa erityisesti kyberturvallisuuteen liittyvien termien esityksiä ja estää samalla katastrofaalisen unohtamisen eli mallin ylikoulutuksen ja aiemmin opitun tiedon katoamisen.

Mallin jatkuva hienosäätö ja koulutus on tasapainoilua aggressiivisen oppimisen ja liian vähäisen päivityksen välillä, mikä näkyy sekä mallin suorituskyvyssä että kyvyssä säilyttää aiemmin opitut tiedot. Näiden tekijöiden hallinta on keskeinen osa kyberturvallisuuden kaltaisten erikoisalueiden mallien kehitystä. Lopputuloksena on siirto-oppimiseen perustuva malli, joka kykenee oppimaan tehokkaasti rajallisella datalla ja tarjoamaan luotettavaa analyysiä nopeasti muuttuvissa tilanteissa.

Tämä kokonaisvaltainen lähestymistapa, jossa yhdistetään suurten kielimallien nollashottikyvyt aktiiviseen oppimiseen, generatiivinen tekstin lisäys sekä siirto-oppiminen, muodostaa perustan tulevaisuuden tutkimukselle ja sovelluksille. Se avaa uusia mahdollisuuksia kehittää entistä tehokkaampia, dataa säästäviä menetelmiä erityisesti dynaamisissa ja haastavissa tietoturvaympäristöissä, joissa annotointiresurssit ovat rajalliset.

On tärkeää ymmärtää, että vaikka suurten kielimallien generatiiviset kyvyt ovat voimakkaita, niiden käytössä on olennaista säilyttää kontrolli datan laatuun ja merkityksellisyyteen liittyen. Ihmisen ohjaama suodatus ja konservatiivinen mallin hienosäätö auttavat estämään virheellisten tai harhaanjohtavien tietojen leviämistä. Lisäksi siirto-oppimisen onnistuminen edellyttää huolellista koulutusasetusten ja aineistovalinnan optimointia, jotta vältetään ylikoulutus ja varmistetaan, että malli oppii relevantit ominaisuudet sovellusalueelta.

Miten parantaa kyberturvallisuusmallin suorituskykyä?

Kyberturvallisuuden alueella tekoälyn ja koneoppimisen soveltaminen on saavuttanut merkittäviä edistysaskeleita, mutta myös haasteet, kuten katastrofaalinen unohtaminen, pysyvät ajankohtaisina. Tämän vuoksi meidän on tärkeää ymmärtää, kuinka mallien esikoulutus ja domain-spesifinen mukauttaminen voivat parantaa suorituskykyä ja vähentää merkittäviä virheitä.

Esimerkiksi CySecBERT, joka perustuu BERT-arkkitehtuuriin, on suunniteltu erityisesti kyberturvallisuusalan tehtäviin. BERT-mallin pohjalla oleva transformeriarkkitehtuuri hyödyntää itsehuomiomekanismia, joka painottaa kunkin sanan merkitystä suhteessa toisiin lauseessa. Tämä mahdollistaa pitkän aikavälin riippuvuuksien ja kontekstin ymmärtämisen, mikä on erityisen tärkeää kyberturvallisuuden kaltaisessa alalla, jossa termit voivat vaihdella ja asiayhteydet muuttuvat nopeasti.

Kyberturvallisuuden malli, kuten CySecBERT, ei ole vain yksi yleinen kielimalli, vaan se on mukautettu tiettyyn domaineen. Tämä tarkoittaa, että se on koulutettu juuri kyberturvallisuuden alalta kerätyillä tiedoilla. Tällaisen mallin koulutuksessa on keskeistä valita oikeat tekstikorpukset, jotka kuvastavat turvallisuusalan puhetapaa ja tiedonvälitystapoja.

Esimerkiksi CySecBERT:n koulutuksessa hyödynnettiin neljää erilaista tekstikorpusta: blogeja, arXiv-artikkeleita, kansallisia haavoittuvuustietokantoja (NVD) ja Twitter-twiittejä. Näiden lähteiden valinta perustui siihen, että nämä tiedonlähteet ovat tärkeitä ja käytettyjä kyberturvallisuusalan asiantuntijoiden keskuudessa. Erityisesti blogit tarjoavat laajoja ja syvällisiä keskusteluja haavoittuvuuksista, uhkista ja tietoturvasta, kun taas Twitter tarjoaa reaaliaikaisia keskusteluja, joissa saattaa olla myös tunnepitoista sisältöä. NVD puolestaan sisältää hyvin tarkkaan ja objektiivisesti dokumentoituja haavoittuvuustietoja, jotka on kuratoitu asiantuntijoiden toimesta.

Tekstien esikäsittely on olennainen osa tätä prosessia. Kokoelmat, kuten blogikirjoitukset, arXiv-artikkelit ja Twitter-twiitit, on käsitelty ja suodatettu niin, että ne kuvaavat mahdollisimman autenttista kieltä. Tämä on tärkeää, koska malli tarvitsee luonnollista ja kontekstualisoitua kieltä, jotta se voi oppia tuottamaan tarkempia ennusteita ja suosituksia. Samalla on varmistettava, että malli ei ylioppimisen vuoksi kadota aiempaa tietämystään.

Esikoulutuksessa on myös huomioitava katastrofaalinen unohtaminen, eli ilmiö, jossa malli unohtaa aiemmin oppimansa, kun siihen syötetään uutta tietoa. Tätä voidaan vähentää muun muassa säätämällä oppimisnopeutta ja valitsemalla pienempiä tietokokonaisuuksia verrattuna alkuperäisiin BERT-mallin esikoulutuksen tietoihin. Tämä lähestymistapa voi vähentää ongelmia, joissa malli alkaa käyttäytyä epäluotettavasti uusien tietojen jälkeen.

Tässä yhteydessä on tärkeää myös arvioida mallin kykyä säilyttää vanha tieto, vaikka se olisi saanut uuden koulutuksen. Tämän vuoksi suoritettiin testejä, joissa mallia arvioitiin ei-kyberturvallisuusalueen tehtävissä. Tavoitteena oli nähdä, miten hyvin malli säilyttää aikaisemman tietämyksensä ja kuinka merkittävästi uusi koulutusmuokkaa vanhaa tietoa.

Lisäksi on syytä mainita, että suurten datamäärien kerääminen ja käsittely on elintärkeää tällaisen mallin luomisessa. Koska kyberturvallisuus on laaja ja monimutkainen ala, koulutettavan mallin on oltava hyvin perehtynyt eri näkökulmiin. Tämä tarkoittaa, että vaikka datan keruu ja esikäsittely voivat olla aikaa vieviä prosesseja, ne ovat ratkaisevia, jotta malli voi toimia tehokkaasti ja tarkasti. Erityisesti on tärkeää varmistaa, että datassa ei ole virheitä, kuten väärinkäsityksiä tai puutteellisia tietoja, jotka voisivat vaikuttaa mallin tarkkuuteen ja luotettavuuteen.

Kaiken kaikkiaan on tärkeää ymmärtää, että kyberturvallisuusmallin kehittäminen ei ole pelkkää tekniikan ja algoritmien soveltamista. Se on myös syvällinen ymmärrys siitä, miten kyseinen alue toimii ja mitä haasteita siinä on. Mallin tulee pystyä käsittelemään monenlaisia tietolähteitä, kuten virallisia tietokantoja, akateemisia tutkimuksia ja reaaliaikaisia keskusteluja, jotta se voi tarjota kattavaa ja tarkkaa tietoa kyberturvallisuusuhkista ja -ratkaisuista.