Datan laajennus (data augmentation) on tehokas työkalu, jota voidaan käyttää parantamaan mallien suorituskykyä erityisesti pienillä ja epätasapainoisilla tietojoukoilla. Yksi lähestymistapa on käyttää neuroverkkoja luomaan järkeviä transformaatioketjuja, jotka on määritelty etukäteen. Esimerkiksi Ratner et al. ovat soveltaneet generatiivisia vastustajaverkkoja (GAN) näiden transformaatioketjujen luomiseen sekä kuvia että tekstejä käsittelevissä tehtävissä. He ovat osoittaneet, että tämän lähestymistavan käyttö voi merkittävästi parantaa suorituskykyä, erityisesti relaatioiden poimintatehtävissä, kun laajennuksia toteutetaan kielimallien korvauksilla.

Konsistenssikoulutusta on myös käytetty yhdistettynä datan laajennukseen, vaikka se ei ole varsinaisesti datan laajennusta itsessään. Alun perin konsistenssikoulutusta käytettiin luokittelijoiden ennusteiden tekemiseen, jotka ovat invariansseja kohinaa vastaan. Tämä voidaan toteuttaa minimoimalla oikeiden ja kohinoitujen esimerkkien tulosten väliset divergessit. Koska prosessissa huomioidaan vain ennusteiden jakaumat, konsistenssikoulutusta voidaan soveltaa myös merkitsemättömiin tietoihin. Monet tutkijat ovat analysoineet, kuinka konsistenssikoulutus käyttäytyy datan laajennusmenetelmien yhteydessä. Esimerkiksi Xie et al. ovat käyttäneet konsistenssikoulutusta yhdistettynä pyörivään käännökseen ja TF-IDF-pohjaiseen korvaukseen, saavuttaen 22.79 %:n tarkkuusparannuksen alhaisen datan ympäristössä Amazon-2-datassa käyttäen BERT-perusmallia. He pystyivät myös ylittämään alan huipputulokset IMDb-datassa vain 20 valvotun esimerkin avulla.

Chen, Yang ja Yang ovat laajentaneet tätä lähestymistapaa heidän MixText™-järjestelmässään. He luovat uusia esimerkkejä pyörivän käännöksen avulla ja arvaavat alkuperäisten ja laajennettujen esimerkkien etiketin painotetun keskiarvon avulla. Koulutuksessa he ottavat satunnaisesti kaksi esimerkkiä ja sekoittavat ne TMixillä. Jos toinen esimerkki on alkuperäisestä datasta, käytetään normaalia valvottua häviötä, mutta jos molemmat esimerkit ovat merkitsemättömiä tai laajennettuja, käytetään konsistenssihäviötä kuten Xie et al. Konsistenssikoulutusta voidaan soveltaa myös valvotussa muodossa lisäterminä koulutustavoitteessa, joka varmistaa ennusteiden yhdenmukaisuuden. Esimerkiksi Shen et al. käyttävät tätä menetelmää "cutoff"-menetelmällä, jossa he osoittavat, että konsistenssitermin lisääminen parantaa tarkkuutta 0.15 %:lla.

Kontrastiivinen oppiminen on toinen lähestymistapa, jossa pyritään tekemään alkuperäiset ja laajennetut esimerkit läheisemmiksi toisiinsa ja muiden esimerkkien kauemmaksi edustustilassa. Tämä lähestymistapa voidaan ottaa käyttöön kielimallin esikoulutuksessa, jolloin mallit oppivat merkityksellisiä esityksiä suoraan. Wu et al. ovat osoittaneet, että kielimallin kouluttaminen alusta alkaen tämän tavoitteen avulla voi parantaa alaspäin suuntautuvia tehtäviä. Augmentointimenetelminä he käyttävät sanan poistamista, välin poistamista, satunnaista järjestyksen vaihtamista ja synonyymikorvauksia, sekä näiden yhdistelmiä.

Kontrastiivinen oppiminen on tuottanut hyviä tuloksia myös esikoulutetuilla malleilla, kun mallia on edelleen koulutettu maskeeratun kielimallin tehtävällä. Fang ja Xie käyttävät pyörivää käännöstä, ja Yan et al. kokeilevat vastustavan koulutuksen, token-sekoituksen, cutoffin ja dropoutin kanssa. Qu et al. ja Choi et al. yhdistävät kontrastiivisen oppimisen valvottuun asetelmaan, jossa käytetään esimerkiksi vastustavaa koulutusta ja pyörivää käännöstä.

Lisäksi on olemassa muita koulutusstrategioita, jotka muuttavat esimerkkien esittämisjärjestystä oppimisalgoritmille. Liu et al. käyttävät kurssin oppimista, jossa algoritmi oppii ensin vähemmän vaikeita esimerkkejä, ja siirtyy sitten alkuperäisiin ja laajennettuihin tietoihin. Yang et al. puolestaan kääntävät tämän prosessin ja kouluttavat ensin laajennetut tiedot ja sitten alkuperäiset tiedot. Näin mallille annetaan mahdollisuus korjata ei-toivottuja käyttäytymismalleja, joita se on oppinut kohinalla laajennetuista tiedoista.

Lisäksi datan luokittelussa on tärkeää käyttää suodatusmekanismeja, jotka poistavat huonolaatuiset laajennukset. Esimerkiksi Liu et al. poistavat generoidut esimerkit vertaamalla niiden unigramsanaston päällekkäisyyksiä alkuperäisten sanojen kanssa. Tällaisia suodattimia voidaan käyttää esimerkiksi Levenshtein-etäisyyden, Jaccardin samankaltaisuuskerroin tai Hamming-etäisyyden avulla. Tällöin voidaan varmistaa, että laajennukset säilyttävät alkuperäisten tietojen merkityksellisyyden, eikä niiden laatu heikkene liian yksinkertaisten tai liian samankaltaisten esimerkkien vuoksi.

Lopuksi on huomattava, että mikään yksittäinen datan laajennusmenetelmä ei ole paras kaikissa tehtävissä. Esimerkiksi pyörivän käännöksen tai synonyymien korvauksen käyttö voi tuottaa erilaisia tuloksia riippuen käytetystä mallista ja tehtävästä. Eri menetelmät voivat olla hyödyllisiä erilaisissa olosuhteissa, joten on tärkeää kokeilla eri lähestymistapoja ja valita sopivimmat menetelmät kullekin sovellukselle.

Kuinka CySecBERT ylittää perus-BERTin ja CyBERT-mallin kyberturvallisuusalueella

Kyberturvallisuuden alueella sovellettavat kielimallit, kuten BERT ja sen sovellukset, ovat saavuttaneet merkittäviä tuloksia tiedon käsittelyssä ja luokittelussa. Viimeaikaisessa vertailussa KySecBERT-malli osoitti selvästi parempaa suorituskykyä perinteisiin BERT-malleihin ja muihin erikoistuneisiin malleihin verrattuna, erityisesti kyberturvallisuuteen liittyvissä tehtävissä. KySecBERT ylittää BERTin ja Ranade et al. [347] CyBERT-mallin useimmissa kyberturvallisuusalueen tehtävissä.

Esimerkiksi, tarkasteltaessa ohjelmistoversioiden, ohjelmiston nimien ja hyökkäyskompleksisuuden tunnistamista, KySecBERT-malli saavutti merkittäviä parannuksia verrattuna aiempiin malleihin. Vaikka CyBERT-malli suoriutui paremmin ohjelmistoversioiden tunnistuksessa, KySecBERT paransi tätä tulosta edelleen. KySecBERT-mallin edut ohjelmiston nimien ja hyökkäyskompleksisuuden luokittelussa olivat myös ilmeisiä, vaikka yleisesti ottaen hyökkäyskompleksisuuden arviointi ei ollut kaikilta osin täysin tyydyttävä. Tämä heijastaa haasteita, jotka liittyvät riittämättömän datan saatavuuteen kyberturvallisuusaiheisten tehtävien yhteydessä, kuten Kuehn et al. [219] ovat jo aiemmin maininneet.

Relevanssin luokittelu tehtävässä, kuten CySecAlert, KySecBERT-malli ylitti CyBERTin ja perus-BERT-mallin. Se saavutti parhaan F1-pisteen, mikä osoittaa sen kyvyn tunnistaa ja luokitella kyberturvallisuuteen liittyviä sisältöjä kuten Twitter-viestejä. Mielenkiintoista on, että vaikka CyBERT ei parantanut perus-BERT-mallin tuloksia tässä tehtävässä, sen suorituskyky oli riittävän hyvä tietyissä erikoistuneissa tehtävissä, kuten MS Exchange -tiedon luokittelussa, jossa CyBERT oli edullisempi.

KySecBERT, joka oli alun perin suunniteltu kyberturvallisuusalaan erikoistuneeksi kielimalliksi, on myös osoittanut kykyään parantaa perinteisiä BERT-malleja enemmän spesifisissä tehtävissä, joissa tarvitaan hyvin tarkkaa ja alueellista sanastoa. Tämä on erityisen tärkeää, kun käsitellään kyberuhkia ja erityyppisiä kyberturvallisuusuhkia, jotka edellyttävät syvällistä asiantuntemusta ja tarkkaa kielenkäsittelyä.

KySecBERT-mallin vakaus ja luotettavuus näkyvät myös sen pienemmässä hajonnassa verrattuna muihin malleihin. Tämä viittaa siihen, että sen koulutusprosessi on vakaampi ja paremmin optimoitu verrattuna muiden mallien koulutukseen. Pienempi hajonta F1-pisteissä ja tulosten tasaantuminen eri kokeissa osoittaa, että KySecBERT on erikoistunut ja hyvin sopeutettu kyberturvallisuuden vaatimuksiin.

Klassiset koneoppimismenetelmät, kuten ne, joita Riebe et al. [363] käyttivät, osoittivat heikompia tuloksia, mikä vahvistaa sen, että syväoppimismallit, kuten BERT ja sen johdannaiset, ovat tehokkaampia kyberturvallisuusalalla. Tämä on tärkeä havainto, sillä se tukee syväoppimisen hyödyllisyyttä ja roolia kyberturvallisuuden analyysissä.

Mielenkiintoista on myös se, miten CySecBERT on hyödyllinen myös muutamassa erityisessä tehtävässä, kuten “few-shot” oppimisessa, jossa vain pieni määrä esimerkkejä riittää mallin kouluttamiseen. KySecBERT on osana tätä lähestymistapaa, ja sen tulokset ylittävät perus-BERT-mallin ja ADAPET-mallin suoritukset merkittävästi. Tämä osoittaa, kuinka KySecBERT voi auttaa edistämään muiden tieteellisten alueiden tutkimusta ja sovelluksia.

Catastrophic forgetting, eli katastrofaalinen unohtaminen, on toinen tärkeä haaste, joka liittyy syväoppimismallien koulutukseen. KySecBERT:n suorituskyvyn lasku SuperGLUE-tehtävissä ei osoita katastrofaalista unohtamista, sillä mallin suorituskyky on edelleen hyvällä tasolla useimmissa tehtävissä. Vaikka pieni suorituskyvyn heikkeneminen on havaittavissa, erityisesti CB-tehtävässä, se ei ole merkki siitä, että malli olisi menettänyt olennaista tietoa alkuperäisestä BERT-koulutuksesta.

Tämä havainto on tärkeä, koska se auttaa meitä ymmärtämään, että vaikka malli saattaa menettää osan alkuperäisestä tiedostaan, se ei tarkoita, että sen suorituskyky heikkenee merkittävästi. KySecBERT:n kohdalla on huomattavaa, että se on koulutettu huomattavasti suuremmalla tietomäärällä ja pidemmällä aikavälillä verrattuna Ranade et al. [347] CyBERT-malliin, mikä voi selittää sen ylivoimaisuuden useimmissa tehtävissä.

Lopulta, KySecBERT:n arviointi kyberturvallisuusalueella on osoittanut sen erinomaisen soveltuvuuden ja sopeutumiskyvyn. Sen suorituskyky on kiistaton verrattuna perinteisiin BERT-malleihin ja CyBERT-malleihin, ja se pystyy parantamaan tuloksia useimmissa kyberturvallisuusaiheisissa tehtävissä. Tämän vuoksi se on lupaava työkalu tulevaisuuden kyberturvallisuusratkaisujen kehittämisessä.