De onderzoeken die in 2019 op het model BERT werden uitgevoerd, onthulden interessante inzichten in hoe taalmodellen syntactische en semantische informatie verwerken. In deze studies, gepresenteerd op de conferentie van de Association for Computational Linguistics, werd het gedrag van twee kleinere taalmodellen bestudeerd, een bestaande uit 12 modules en de andere uit 24 modules. De auteurs van het onderzoek, allen werkzaam bij Google, concludeerden dat het model op een intuïtieve en interpreteerbare manier de klassieke stappen van taalanalyse nabootst, zoals het taggen van woordsoorten, parseren, het herkennen van entiteiten, de identificatie van semantische rollen en het oplossen van coreferentie.
Het belangrijkste resultaat van dit onderzoek was de ontdekking dat BERT's modules zich spontaan specialiseerden in de taken die we in de schoolbanken leren wanneer we grammatica en syntaxis bestuderen. Dit proces wordt nu beschouwd als onderdeel van de traditionele automatische tekstverwerkingspipeline. In BERT verschijnen basale syntactische informatie en grammaticale functies al in de vroege lagen van het netwerk, terwijl complexere semantische informatie in de hogere lagen verwerkt wordt.
Een interessant aspect is dat syntactische informatie gemakkelijker te lokaliseren is in het netwerk, omdat de gewichten die met syntactische taken te maken hebben, zich vaak concentreren in slechts enkele lagen. Daarentegen is semantische informatie veel meer verspreid over het gehele netwerk. Dit wijst op een hiërarchische structuur waarin eenvoudige grammaticale elementen in de basis worden geleerd en diepere, abstractere betekenissen pas later in de lagen worden aangescherpt.
Een voorbeeld kan dit verduidelijken. In de zin "de kat jaagt op de muis" heeft 'de kat' de semantische rol van agent, 'jaagt' is het predicaat en 'de muis' fungeert als het patiënt. Als we de uitdrukking 'de zwarte kat' zouden gebruiken, zou dat een constituent worden genoemd, wat een kleinere syntactische eenheid is.
Wat de onderzoeken verder aantoonden, is dat BERT, ondanks zijn vermogen om grammaticale en logische analyses uit te voeren zonder expliciete supervisie, niet volledig transparant is in zijn interne representaties. Hoewel het de klassieke taalverwerkingsconcepten rediscoverde, blijven veel andere interne processen nog onduidelijk.
Wat kunnen we verwachten van grotere modellen zoals Megatron, die 105 abstractieniveaus heeft? Als een model met slechts 12 niveaus al in staat is om grammaticale en logische analyses uit te voeren, kunnen we aannemen dat de hogere niveaus van dergelijke modellen mogelijk verantwoordelijk zijn voor het ontwikkelen van stilistische vaardigheden of voor kennis over de wereld, die nodig is om ontbrekende woorden te voorspellen. Dit soort kennis is echter moeilijk te inspecteren en blijft grotendeels onduidelijk.
In 2024 werd er vooruitgang geboekt door het bedrijf Anthropic, dat de middenlagen van het model Claude onderzocht. Ze ontdekten zogenaamde 'symbolen' die entiteiten representeren, zoals de Golden Gate Bridge, die geactiveerd worden telkens wanneer dit concept wordt genoemd, ongeacht de taal of afbeelding. Dit is een voorbeeld van mechanistische interpretatie, een veld dat mogelijk belangrijke toepassingen heeft voor het begrijpen en controleren van deze systemen in de toekomst.
Naast linguïstische kennis bezitten grote taalmodellen zoals GPT en Claude ook andere vormen van kennis. Ze kunnen bijvoorbeeld schaken spelen of computerprogramma's schrijven. Dit geeft aan dat de netwerken ook in staat zijn kennis te ontwikkelen die verder gaat dan alleen taal en grammatica. Maar welk soort wereldkennis bezit GPT en hoe ontwikkelt dit zich naarmate het model verder traint?
Het creëren van een model van de wereld is essentieel voor taalmodellen om effectief te kunnen communiceren en voorspellingen te doen. Een eenvoudig voorbeeld zou het voorspellen van verkeersniveaus op basis van historische data kunnen zijn. Als een model leert voorspellen wat de verkeersomstandigheden zullen zijn op basis van eerdere gegevens, zal het steeds complexere patronen kunnen herkennen, zoals de invloed van weekends of vakanties op het verkeer. Dit proces van het leren van steeds verfijndere modellen is precies wat taalmodellen doen bij het begrijpen van de wereld. In hun zoektocht naar het voorspellen van ontbrekende woorden creëren ze een steeds rijker beeld van de werkelijkheid, dat hen in staat stelt om veel meer te begrijpen dan enkel de taal.
Net zoals een model voor verkeersvoorspellingen complexe patronen leert herkennen, kan een taalmodel door het voorspellen van ontbrekende woorden zelfs leren over de relaties tussen concepten in de echte wereld. Wanneer een model bijvoorbeeld moet voorspellen wat het ontbrekende woord in een medische casus is, vereist dat niet alleen taalbegrip, maar ook een grondig begrip van de onderliggende problematiek. Dit is precies wat gebeurt wanneer taalmodellen proberen om te voorspellen welke woorden in verschillende contexten ontbreken: ze creëren impliciet een model van de wereld dat hen in staat stelt om die voorspellingen te maken.
In veel gevallen is het model dus niet slechts bezig met het begrijpen van de structuur van zinnen, maar ook met het ontwikkelen van een wereldbeeld dat hen helpt om een nauwkeuriger voorspelling te doen van wat er komt. Dit mechanisme verklaart waarom taalmodellen vaak in staat zijn om antwoord te geven op vragen die verder gaan dan pure taalanalyse, zoals medische diagnoses of logische puzzels.
Wat gebeurt er wanneer taalmodellen een kritieke omvang bereiken?
‘Emergent’ is een term die verwijst naar gedragingen van een systeem die spontaan optreden als gevolg van ‘zelforganisatie’, en die afwezig zijn in een klein systeem. Een voorbeeld hiervan is de collectieve vlucht van een zwerm vogels. Er zijn echter ook degenen die de term ‘emergent’ uitsluitend reserveren voor gedragingen die ‘plotseling’ optreden, in plaats van geleidelijk, wanneer de omvang van het systeem toeneemt. Om geen partij te kiezen in dit academische debat, waarbij verwarring dreigt, zullen we het simpelweg hebben over eigenschappen die ‘geleidelijk opkomen’ of ‘plotseling opkomen’. Wanneer het onderscheid niet van belang is, zullen we doorgaans spreken over ‘opkomende capaciteiten’.
In dit opzicht moeten de taalkundige kennis die in de netwerken van BERT wordt ontdekt, en die in het vorige hoofdstuk is beschreven, als emergent worden beschouwd. Vanaf de eerste waarnemingen van GPT in 2018 was het duidelijk dat de meest interessante gedragingen van het model die waren die spontaan opkwamen, niet die waarvoor het expliciet getraind was. Bovendien bleek dat deze gedragingen verbeterden naarmate het model of de grootte van de dataset toenam. In dit hoofdstuk richten we ons op vaardigheden die pas ‘plotseling opkomen’ nadat het model een bepaalde ‘kritische drempel’ heeft overschreden, en die zich verder ontwikkelen naarmate de omvang van het model toeneemt.
Het artikel BigBench uit 2023 somt een groot aantal gedragingen op die opkomen wanneer het model een bepaalde omvang overschrijdt. We kiezen drie taken die verschillende wiskundige en taalkundige vaardigheden vereisen, zonder specifieke criteria, om dit te illustreren.
De eerste taak betreft het herschikken van woorden. Stel je voor dat je de letters van een woord door elkaar husselt, zoals wanneer je speelkaarten schudt, en vervolgens vraagt: wat was het oorspronkelijke woord? Dit type taak vereist de mogelijkheid om patronen te herkennen en de oorspronkelijke structuur van woorden te herstellen, wat een taalkundige vaardigheid is die opkomt na het bereiken van een bepaalde modelgrootte.
De tweede taak betreft gewijzigde rekenkunde. Stel je voor dat je een nieuwe rekenkundige bewerking definieert die geen van de traditionele vier is die we op school leren, en je wil iemand leren hoe deze bewerking werkt met een paar voorbeelden. Het idee van een nieuwe bewerking in een kunstmatige intelligentie vereist een dieper begrip van abstracte concepten, wat weer een opkomende vaardigheid is bij grotere modellen.
De derde taak betreft de transliteratie van het Internationale Fonetische Alfabet. De uitspraak van Engelse woorden komt niet direct overeen met hun spelling, en vice versa. Het vragen aan een AI-systeem om de spelling van een woord af te leiden op basis van de uitspraak vereist kennis van zowel het fonetisch alfabet als de standaardspelling. Dit vermogen om te generaliseren over fonetische en orthografische patronen komt pas beschikbaar als het model een bepaalde kritieke massa heeft bereikt, rond de 10^11 parameters.
Er zijn veel andere vaardigheden die geleidelijk opkomen naarmate de grootte van het model toeneemt, zoals traditionele rekensommen, die zich continu verbeteren naarmate de omvang van het model groeit. Het artikel BigBench merkt op: "Taalmodellen vertonen kwalitatief nieuw gedrag naarmate hun omvang toeneemt. Ze vertonen bijvoorbeeld beginnende capaciteiten in het schrijven van computerprogramma's, schaken, het stellen van medische diagnoses en het vertalen tussen talen."
Het is belangrijk om die vaardigheden te bestuderen die zich plotseling manifesteren. Hetzelfde artikel observeerde: "Deze doorbraken zijn empirisch waargenomen, maar we kunnen niet betrouwbaar voorspellen op welke schaal nieuwe doorbraken zich zullen voordoen. We zijn ons misschien ook niet bewust van extra doorbraken die al hebben plaatsgevonden, maar die nog niet experimenteel zijn opgemerkt."
In dit licht ontstaat de noodzaak om theorieën te ontwikkelen die deze gedragingen kunnen verklaren: hoe kunnen we het verwachte gedrag van deze nieuwe tools voorspellen naarmate we hun omvang vergroten, als we niet eens in staat zijn om het gedrag dat we al hebben waargenomen goed te begrijpen?
In de Griekse mythologie werd Pandora, de eerste vrouw, gestuurd naar de mensen met een gesloten doos die ze niet mocht openen. Toen ze dat toch deed, ontsnapten de kwaden die de wereld tot op de dag van vandaag teisteren. De vraag is nu: wanneer we steeds grotere modellen bouwen, wat komt er dan onverwacht tevoorschijn? Is het mogelijk om niet te kijken in de ‘doos’ die zich nu voor ons opent?
Het meest dringende vraagstuk met betrekking tot taalmodellen is: wat kunnen ze nog leren door simpelweg door te gaan op deze weg? Hoe kunnen we hun capaciteiten controleren, bijvoorbeeld door te voorkomen dat ze bepaalde vaardigheden verwerven terwijl ze andere ontwikkelen? Pandora’s doos lijkt nu volledig geopend te zijn, en de race om steeds grotere modellen te creëren, zou ons nog veel meer verrassingen kunnen brengen.
De kwestie van controle over het groeien van kunstmatige intelligentie roept onvermijdelijk de vraag op of het mogelijk is om de ‘kritieke massa’ te bereiken die, net als in de natuurkunde, een opeenvolgende kettingreactie van onverwachte en mogelijk ongecontroleerde capaciteiten teweegbrengt. Het is alsof we machines proberen te maken die superkritisch kunnen worden, een idee dat Alan Turing naar voren bracht toen hij vroeg of machines ooit slimmer zouden kunnen worden dan hun makers, en zo snel dat we het niet eens zouden kunnen bijbenen.
In de recente bevindingen over ‘emergente vaardigheden’ zien we dat sommige van deze vaardigheden zich plotseling manifesteren zodra het model een kritieke grootte heeft bereikt. Vaardigheden zoals rekenen en verbaal redeneren komen pas voor bij modellen van een bepaalde omvang, en het is van bijzonder belang om te begrijpen wat er mogelijk nog verder kan komen. Wat betekent het om een ‘groter’ model te bouwen? Hoe voorspellen we de ‘doorbraken’ die nog moeten komen als we de huidige ontwikkeling van AI-systemen niet volledig begrijpen?
Wat zijn de belangrijkste toepassingen van drones in de landbouw en de toekomst van de technologie?
Hoe akoestische lokalisatie en tracking systemen de nauwkeurigheid van objecttracking verbeteren

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский