Aktiivinen oppiminen (Active Learning) on käsite, joka viittaa mallien koulutukseen, jossa vain osa datasta valitaan käyttöön mallin oppimisprosessia varten. Tämä menetelmä voi merkittävästi vähentää tarvittavan datan määrää ja parantaa oppimisprosessin tehokkuutta erityisesti matalan datan olosuhteissa. Yksi aktiivisen oppimisen alueista, joka on saanut huomiota viime vuosina, on suurten kielimallien (Large Language Models, LLM) käyttö aktiivisessa oppimisessa. Erityisesti GPT-4:n ja muiden vastaavien mallien käyttö on osoittautunut lupaavaksi tavalta parantaa suorituskykyä verrattuna perinteisiin satunnaisiin otantastrategioihin.

Tässä tutkimuksessa on tutkittu ActiveLLM-menetelmän käyttöä, joka perustuu suurten kielimallien kuten GPT-4, GPT-4o, Llama 3 ja Mistral Large hyödyntämiseen. Tutkimukset ovat osoittaneet, että ActiveLLM-menetelmällä saadaan huomattavasti parempia tuloksia kuin satunnaisella näytteenotolla useimmissa tapauksissa. Erityisesti GPT-4 on osoittautunut erittäin tehokkaaksi, tuottaen jopa 17 prosenttiyksikön parannuksia tarkkuudessa verrattuna muihin malleihin. Tämä antaa vahvan viitteen siitä, että suurten kielimallien hyödyntäminen ei ainoastaan tehosta oppimisprosessia, vaan myös parantaa sen luotettavuutta ja tarkkuutta.

ActiveLLM-menetelmä erottuu myös kyvystään yhdistää erilaisia aktiivisia oppimisstrategioita. Se voi lievittää muiden menetelmien kylmäkäynnistysongelmia, joissa mallit tarvitsevat alkuvaiheessa huomattavaa määrää dataa saavuttaakseen hyviä tuloksia. Toisin kuin perinteiset aktiivisen oppimisen strategiat, jotka voivat viedä useita minuutteja ennen kuin niiden tuloksia voi arvioida, ActiveLLM-menetelmä on huomattavasti nopeampi ja joustavampi. Tämä tekee siitä käytännöllisemmän vaihtoehdon erityisesti sovelluksissa, joissa on tärkeää saada palautetta lähes reaaliaikaisesti.

Tutkimuksen tulokset viittaavat myös siihen, että suurten mallien käyttö aktiivisessa oppimisessa vähentää malli- ja datan välisiä riippuvuuksia. Tämä ns. malli- ja datan epäsuhtaongelma (model-mismatch problem) on ollut yksi merkittävä haaste monilla muilla oppimisstrategioilla, mutta suurten kielimallien käyttäminen voi vähentää tätä ongelmaa merkittävästi. Tämä tarjoaa uusia mahdollisuuksia parantaa pienillä datamäärillä toimivien mallien suorituskykyä.

Tietojen laajennus (data augmentation) on toinen tärkeä tekijä, joka liittyy aktiiviseen oppimiseen, erityisesti silloin, kun käytettävissä on vähän dataa. Tietojen laajennus on prosessi, jossa alkuperäistä dataa muokataan tai luodaan uusia esimerkkejä olemassa olevasta datasta. Tämä voi parantaa mallien kykyä oppia paremmin ja yleistää paremmin uusia, aiemmin näkemättömiä tapauksia. Vaikka perinteiset tietojen laajennusmenetelmät, kuten satunnainen tekstin muokkaaminen tai käännöstekniikat, ovat olleet suosittuja, suurten kielimallien käyttö tietojen laajennuksessa on osoittautunut erittäin tehokkaaksi. Erityisesti GPT-2:n ja GPT-3:n käyttö tietojen laajentamiseen on tuottanut merkittäviä parannuksia tarkkuudessa erityisesti matalan datan olosuhteissa.

Kun käytetään suuria kielimalleja, kuten GPT-2 tai GPT-3, tietojen laajennusmenetelmät voivat luoda monenlaisia uusia tekstikappaleita, jotka ovat sekä semanttisesti että rakenteellisesti päteviä. Tämä mahdollistaa mallin suorituskyvyn parantamisen ilman, että tarvitaan suuria määriä uutta dataa. Tämän lähestymistavan etuna on myös se, että se voi tuottaa uusia ja monipuolisempia esimerkkejä, joita perinteiset menetelmät eivät pysty luomaan.

Suuremmat kielimallit, kuten GPT-3, ovat erityisen hyödyllisiä silloin, kun mallin kouluttaminen vaatii erittäin suuria kontekstinikkunoita ja tietojen integrointia suoraan syötteisiin. Tällöin ei tarvitse erikseen hienosäätää mallia, koska suuri kielimalli voi hyödyntää omaa laajaa esikoulutustaan ja suorittaa tehtävän suoraan olemassa olevilla syötteillä. Tämä yksinkertaistaa prosessia ja voi johtaa merkittäviin parannuksiin suorituskyvyssä.

Vaikka suurten kielimallien käyttö tietojen laajentamisessa ja aktiivisessa oppimisessa on erittäin lupaavaa, on tärkeää huomioida myös mahdolliset haasteet. Yksi tärkeimmistä haasteista on se, että vaikka suuret mallit voivat luoda hyvin monenlaisia esimerkkejä, ne eivät aina pysty ymmärtämään tarkasti tehtävän kontekstia, erityisesti silloin, kun tehtävä on liian laaja tai monitulkintainen. Tällöin lisätyt esimerkit voivat jopa heikentää suorituskykyä.

Lisäksi on huomattava, että suurten kielimallien tehokkuus ei ole ainoastaan tiedon määrässä, vaan myös sen laadussa. Kun luodaan uusia tietoja, on tärkeää varmistaa, että ne ovat todella hyödyllisiä ja kontekstuaalisesti oikeita, sillä väärin luodut esimerkit voivat heikentää mallin suorituskykyä.

Tulevaisuudessa on odotettavissa yhä monimutkaisempia ja tehokkaampia menetelmiä, jotka yhdistävät suurten kielimallien ja aktiivisen oppimisen edut. Tällaiset menetelmät voivat muuttaa merkittävästi tapaa, jolla käsitämme koneoppimisen ja datan käsittelyn.

Milloin pohjamallien käyttö on suositeltavaa ja milloin nykyiset menetelmät ovat parempia?

Pohjamallit, kuten GPT-4, ovat saavuttaneet merkittäviä edistysaskeleita monilla aloilla, ja niiden suorituskyky on ylittänyt monien perinteisten koneoppimismenetelmien rajat. Nämä mallit eivät vain kykene suorittamaan tehtäviä erittäin hyvin, vaan ne voivat myös ratkaista ongelmia, joita aiemmin pidettiin mahdottomina ilman valtavaa määrää esimerkkitietoa. Tämän vuoksi ne tarjoavat monille sovelluksille aivan uudenlaisen lähestymistavan, joka säästää aikaa ja resursseja. Kuitenkin, vaikka pohjamallit tarjoavat monia etuja, ne eivät ole aina paras vaihtoehto kaikissa tilanteissa, eikä niiden käyttö ole aina suositeltavaa.

Pohjamallien suurin etu on niiden suorituskyky. Ne tarjoavat huipputason tuloksia monilla eri alueilla, kuten lääketieteessä, lakialalla, koodauksessa ja asiakaspalvelussa. Esimerkiksi GPT-4 on ylittänyt Yhdysvaltain lääketieteellisten lisenssitutkintojen vaatimukset yli 20 pisteellä ja saavuttanut kymmenen parhaan joukkoon simuloiduissa asianajajatesteissä. Se voi myös suorittaa asiakaspalvelua jopa 700 työntekijän edestä, mikä tekee siitä erittäin houkuttelevan ratkaisun suurille organisaatioille.

Tämän lisäksi pohjamallit ovat helppokäyttöisiä verrattuna moniin perinteisiin menetelmiin, jotka vaativat laajaa asiantuntemusta ja monivaiheista käsittelyä. Pohjamallien avulla voidaan käsitellä suuria tietomääriä ja suorittaa monimutkaisia tehtäviä pelkästään muuttamalla syötteitä ja luomalla erikoistuneita kyselyitä. Lisäksi monet pohjamallit ovat saatavilla pilvipalveluiden kautta, mikä poistaa suurimman osan laitteistovaatimuksista ja helpottaa mallien käyttöönottoa.

Pohjamallien kehitys on myös nopeaa ja dynaamista. Yhteisö, joka työskentelee näiden mallien parissa, on aktiivinen ja tuottaa jatkuvasti uusia tutkimuksia ja kehitystyökaluja, kuten LoRA:ta ja QLoRA:ta, jotka parantavat mallien suorituskykyä ja käyttökelpoisuutta. Tämä varmistaa, että pohjamallit tulevat jatkossakin kehittymään ja parantamaan itseään, mikä on tärkeää pitkän aikavälin näkökulmasta.

Kuitenkin on myös tärkeää ymmärtää pohjamallien rajoitukset. Vaikka ne voivat saavuttaa huipputason suorituskykyä tietyissä tehtävissä, niiden käyttöön liittyy huomattavia haasteita. Erityisesti mallien suuri koko ja vaativat laskentateho- ja muistivaatimukset tekevät niistä epäkäytännöllisiä pienemmille organisaatioille ja yksittäisille käyttäjille. Esimerkiksi GPT-3, joka koostuu 175 miljardista parametrista, vaatii noin 350 GB muistia, mikä tekee sen käytön mahdottomaksi monille pienemmille toimijoille ilman suuria investointeja infrastruktuuriin. Tämä tarkoittaa, että monet pienemmät yritykset ja tutkimusryhmät joutuvat luottamaan kolmannen osapuolen palveluntarjoajiin, kuten OpenAI:hin, jotka tarjoavat pääsyn näihin malleihin API:n kautta.

Toinen pohjamallien heikkous on niiden riippuvuus ulkopuolisista tahoista. Vaikka API-palvelut tekevät mallien käytön helpoksi, tämä riippuvuus tuo mukanaan haasteita, kuten prosessointiketjun läpinäkyvyyden puutteen ja mahdolliset käyttökatkokset. Näiden mallien käyttö voi myös aiheuttaa huolta tietosuoja- ja turvallisuuskysymyksistä, sillä mallit käsittelevät suuria määriä arkaluontoista tietoa.

Lopuksi, vaikka pohjamallit tarjoavat tehokkaita työkaluja monenlaisiin tehtäviin, ne eivät ole aina täydellisiä. Erityisesti tietyt erikoistuneet tehtävät, kuten kyberturvallisuuden luokittelu, saattavat vaatia erikoistuneempia malleja, kuten CySecBERT, joka on optimoitu juuri kyberturvallisuuden haasteisiin. Tällöin pohjamallien suorituskyky ei välttämättä ole yhtä hyvä kuin erikoistuneen mallin, vaikka niiden yleinen suorituskyky olisi huipputasoa.

On tärkeää muistaa, että pohjamallit eivät ole ratkaisu kaikkiin ongelmiin, vaan niiden käyttö kannattaa valita huolellisesti ottaen huomioon sovelluksen erityisvaatimukset, käytettävissä oleva resurssi ja se, kuinka paljon mallin suorituskyky on kriittinen verrattuna muihin tekijöihin, kuten mallin koulutuksen ajankäyttöön, kustannuksiin ja käyttöön liittyviin riskeihin.

Miten tehokkaasti käyttää vähäistä dataa syväoppimisessa ja kyberturvallisuudessa?

Syväoppimismallien kouluttamisessa ei ole mahdollista määrittää tarkasti, mikä määrä dataa on riittävä. Tämä määrä riippuu monista tekijöistä, kuten ongelman monimutkaisuudesta, datan laadusta ja muista konteksteista. Samalla on vaikeaa vetää tarkkaa rajaa sille, mitä määrää dataa voidaan pitää "vähäisenä datana". Esimerkiksi binäärisen luokittelun few-shot-skenaariota arvioitaessa usein käytetään vain 32 harjoitusdata-instanssia. Tämä ei kuitenkaan ole yleispätevä sääntö, ja on järkevämpää arvioida kutakin tehtävää sen omilla ansioilla.

Vaikka aktiivinen oppiminen ja dataaugmentointi voivat luoda äärettömän määrän uusia datanäytteitä, on tärkeää tutkia, missä vaiheessa mallin suorituskyky saavuttaa kyllästymispisteen tai jopa heikkenee. Tämä auttaa ymmärtämään, kuinka paljon dataa tarvitaan ennen kuin lisäys ei enää paranna tuloksia. Tässä yhteydessä on kuitenkin tärkeää huomioida, että syväoppimismallien arvioinnit, jotka perustuvat vähäisiin datanäytteisiin, voivat vaihdella merkittävästi riippuen käytetystä datasetistä. Tällöin lisätutkimukset, jotka käsittelevät erilaisten datasetien arviointeja, voisivat tarjota arvokasta tietoa käytännön sovelluksille.

Tarkempia tutkimuksia tarvitaan myös sen selvittämiseksi, kuinka paljon synteettistä dataa voidaan tuottaa ilman, että suorituskyky kärsii. Tällöin on myös arvioitava, kuinka paljon aitoa dataa tarvitaan, jotta menetelmät toimisivat tehokkaasti ilman merkittäviä jakaumamuutoksia. Vaikka tässä väitöskirjassa ei keskitytä menetelmien vaatimiin laskentatehoihin tai aikaresursseihin, on tärkeää huomioida niiden käytännön merkitys. Esimerkiksi kysymys siitä, pitäisikö dataaugmentointiprosessi suorittaa GPT-3:lla vai riittäisikö GPT-2, on keskeinen käytännön päätöksenteossa. Samoin monitasoinen hienosäätöprosessi vaatii huomattavia laskentatehoja, ja taloudelliselta kannalta voi olla järkevämpää lisätä dataa, jos hienosäätöprosessin eri tasoja ei voida hyödyntää uudelleen.

Aktiivinen oppiminen voi olla tehokas keino saavuttaa hyvää suorituskykyä pienillä datamäärillä ja edullisilla merkintäkustannuksilla. Tässäkin asiassa tulee kuitenkin pohtia ympäristövaikutuksia, sillä suora datan merkitseminen voi olla kestävämpää kuin mallin käyttäminen aktiivisen oppimisen yhteydessä. Lisäksi, vaikka väitöskirjassamme on käsitelty ajallisia resursseja tietyissä menetelmissä, kuten klusteroinnissa ja BERT:in luotettavuuden arvioinnissa, ajan kulutusta ei ole käsitelty kaikissa menetelmissä yhtä kattavasti. Esimerkiksi XAI-Attack voi vaatia merkittäviä aikaresursseja riippuen käytettävistä datan pidätyksistä. Aikapaine voi olla kriittinen tekijä käytännön sovelluksissa, kuten kyberturvallisuusincidenttien käsittelyssä, jolloin odottaminen voi aiheuttaa vakavia seurauksia.

Vaikka tämä väitöskirja keskittyy kyberturvallisuusasiantuntijoiden ja CERT-tiimien käytännön haasteisiin, emme ole tarkastelleet menetelmien yhteyttä käytännön asiantuntijoihin. Menetelmät on suunniteltu ensisijaisesti luokittelusuorituskyvyn parantamiseen, ei käytettävyyden tai käyttäjäkokemuksen kehittämiseen. Tässä piilee myös tärkeä haaste: syväoppimismenetelmien käyttöönotto voi olla liian monimutkaista ei-asiantuntijoille, mikä voi johtaa suurempiin käyttöönoton kustannuksiin. Tämä on erityisen tärkeää, kun pyritään kouluttamaan uusi luokitin jokaiseen uuteen kyberturvallisuusincidenttiin. Menetelmien tueksi olisi luotava käyttöliittymä ja automaattinen prosessi.

Vaikka työssämme on pyritty luomaan pohja erikoistuneen ja yksilöllisen CTI-tiedonkeruun kehittämiselle, käytimme vain yhtä datasettiä, ja rajoituksemme, kuten sosiaalisen median tiedot, voivat vaikuttaa näkökulmaamme. CTI:n keruun erikoistuminen ja yksilöllistäminen on nouseva alue, mutta se on vielä osittain tutkimaton. On tärkeää huomioida, että tutkimuksemme käsitteli vain tiettyjä CERT-tiimejä ja keskittyi tiettyihin kyberturvallisuustilanteisiin. Tämän vuoksi yleisempiä haasteita ei ole täysin nähty.

Tätä väitöskirjaa ei voinut täysin syventyä kyberturvallisuuden ja syväoppimisen jokaiseen osa-alueeseen, mikä on seurausta sen väistämättömästä monitieteellisyydestä. Syväoppimisen alalla keskityttiin ensisijaisesti tekstidatan luokitteluun ja transformointimalleihin, mutta muiden mallirakenteiden ja tehtäväasetelmien tarkastelu jäi vähemmälle huomiolle. Samalla, vaikka tutkimus on arvioinut monia syväoppimismenetelmiä eri alueilla, tiettyjen menetelmien, kuten monitasoisen hienosäädön ja CySecBERT:in "catastrophic forgetting" -ilmiön tutkimus, on jäänyt rajatummaksi ja soveltuu ensisijaisesti kyberturvallisuuskontekstiin.

Lopuksi on tärkeää huomioida eettiset ja yhteiskunnalliset näkökohdat. Vaikka tutkimuksemme on keskittynyt eettisiin periaatteisiin ja jatkuvaan itsearviointiin, on syytä tiedostaa, että tutkimusalueet, kuten CTI-tiedonkeruu ja vastahyökkäyksien luonti, voivat johtaa väärinkäyttöön. Esimerkiksi järjestelmät, jotka pystyvät keräämään erikoistunutta CTI-tietoa, voivat paljastaa haavoittuvuuksia ja auttaa toteuttamaan hyökkäyksiä. Samoin vastahyökkäyksien generointi voi olla väärinkäytettävissä syväoppimismallien hyökkäyksiin. On myös tärkeää tiedostaa, että vääristymät voivat syntyä malleissa, kuten CySecBERT ja GPT-malleissa, mikä voi johtaa eettisiin ongelmiin, kuten syrjintään.

Miten arvioida sosiaalisen median luotettavuutta reaaliajassa?

Sosiaalinen media on vakiinnuttanut asemansa osaksi jokapäiväistä elämää, ja se tarjoaa käyttäjilleen mahdollisuuden luoda ja jakaa sisältöä, joka voi olla sekä hyödyllistä että haitallista. Vaikka sosiaalinen media mahdollistaa journalistien, organisaatioiden ja kansalaisten välistä tiedonvaihtoa ja kriisitietoisuuden kehittämistä, se on myös alttiina väärän tiedon, kuten valeuutisten, salaliittoteorioiden ja huhujen levittämiselle. Tällainen väärä tieto voi vaikuttaa merkittävästi yhteiskunnan päätöksentekoon, erityisesti kriisitilanteissa, ja sen torjuminen on tullut tärkeäksi osaksi nykyaikaista tiedonhallintaa.

Erityisesti reaaliaikainen luotettavuuden arviointi on noussut keskeiseksi haasteeksi sosiaalisen median tiedon käsittelyssä. Perinteiset menetelmät, kuten tiedon gatekeeping tai mediakoulutuksen lisääminen, eivät aina riitä vastaamaan sosiaalisen median valtaviin tietomääriin ja aikarajoituksiin. Tämän vuoksi automaattiset luotettavuusarviointimenetelmät, erityisesti koneoppimisen ja syväoppimisen avulla, ovat saaneet huomiota. Tällaiset menetelmät voivat mahdollistaa suuren tietomäärän käsittelyn ja väärän tiedon tunnistamisen nopeasti.

Erilaisia koneoppimismenetelmiä on kehitetty väärän tiedon tunnistamiseen. Näiden menetelmien joukossa on muun muassa syväoppimismalleja, jotka pyrkivät luokittelemaan viestit joko luotettaviksi tai epäluotettaviksi. Näiden mallien haasteena on kuitenkin se, että monet niistä tarjoavat vain binäärisiä luokituksia tai luokittelevat viestit ennalta määritellyihin kategorioihin ilman mahdollisuutta antaa tarkempia luotettavuusarvioita, kuten prosentuaalisia arvioita.

Syväoppimismallien käyttö luotettavuuden arvioinnissa on kuitenkin ollut rajallista reaaliaikaisessa soveltamisessa. Useimmat olemassa olevat mallit vaativat laajoja laskelmia ja pitkiä käsittelyaikoja, mikä estää niiden käytön suoraan sosiaalisessa mediassa, jossa tieto voi muuttua nopeasti. Toinen haaste on se, että monet mallit eivät hyödynnä käyttäjien aiempia julkaisuja, jotka voivat tarjota lisäinformaatiota käyttäjän luotettavuudesta.

Uudemmat tutkimukset ovat kuitenkin osoittaneet, että syväoppimismallien integroiminen aiempiin käyttäjän viesteihin voi parantaa luotettavuuden arviointia. Tällainen lähestymistapa voi auttaa tunnistamaan, onko käyttäjä aiemmin levittänyt luotettavaa vai epäluotettavaa tietoa. Lisäksi, vaikka monet mallit keskittyvät edelleen yksittäisiin viesteihin, tietyt lähestymistavat keskittyvät viestien levityksen analysointiin, kuten retweettien ja tykkäysten tarkasteluun. Tällaiset menetelmät voivat tarjota tietoa siitä, kuinka laajasti viesti leviää ja kuinka paljon se herättää huomiota.

Reaaliaikaisen luotettavuusarvioinnin kehittämisessä on saavutettu merkittäviä edistysaskeleita, mutta myös haasteita on paljon. Monet nykyiset mallit voivat tunnistaa epäluotettavat viestit, mutta niiden tarkkuus vaihtelee suuresti, ja niiden sovellettavuus laajemmassa mittakaavassa, erityisesti reaaliaikaisessa ympäristössä, on edelleen kysymysmerkki. Jatkuva kehitystyö ja uusien lähestymistapojen testaus ovat välttämättömiä, jotta voidaan varmistaa, että luotettavuuden arviointi pystyy vastaamaan sosiaalisen median nopeisiin muutoksiin.

On myös tärkeää huomata, että luotettavuuden arviointi ei ole vain tekninen haaste, vaan siihen liittyy myös eettisiä kysymyksiä. Miten voimme varmistaa, että automaattiset järjestelmät arvioivat tietoa objektiivisesti ilman, että ne ottavat kantaa ideologisiin tai poliittisiin kysymyksiin? Miten voimme estää väärän tiedon leviämisen ilman, että loukkaamme yksilöiden sananvapauden oikeuksia? Nämä ovat keskeisiä kysymyksiä, jotka tulee ottaa huomioon, kun kehitetään työkaluja, jotka vaikuttavat laajasti yhteiskuntaan ja yksilöiden elämään.

Lopuksi on tärkeää ymmärtää, että vaikka teknologian kehitys tarjoaa tehokkaita työkaluja väärän tiedon torjumiseksi, sen käyttöön liittyy myös vastuu. Pelkkä algoritmien ja syväoppimismallien luotettavuus ei riitä, jos niitä ei käytetä oikein. On olennaista, että käyttäjät, organisaatiot ja viranomaiset ovat tietoisia teknologian rajoituksista ja vastuistaan. Yhteiskunnassa, jossa tieto kulkee nopeasti ja virtaa rajattomasti, on elintärkeää kehittää keinoja, jotka tukevat luotettavaa tiedon jakamista ilman, että teknologiaa käytetään väärin.