De technologische wereld heeft de afgelopen jaren een ingrijpende verschuiving meegemaakt, vooral door de opkomst van geavanceerde taalmodellen zoals ChatGPT. De enorme vooruitgangen in kunstmatige intelligentie, met name op het gebied van Natural Language Processing (NLP), hebben een nieuwe dynamiek gecreëerd in de concurrentie tussen grote techbedrijven. Google, voorheen de onbetwiste leider van de zoekmachine-industrie, zag zich geconfronteerd met een nieuwe bedreiging van AI-chatbots, die de traditionele zoekervaring zouden kunnen vervangen.

De technologie achter deze modellen, bekend als Large Language Models (LLM's), is geëvolueerd met de komst van systemen zoals GPT-3 van OpenAI. Deze modellen zijn gebaseerd op indrukwekkende hoeveelheden data en draaien op ingewikkelde netwerken van parameters die hun gedrag en prestaties sturen. De strijd om de krachtigste taalmodellen te ontwikkelen, zoals GPT-3 en zijn opvolger GPT-4, is niet alleen een technische race, maar ook een strategische zet voor bedrijven die proberen de controle te behouden over de toegang tot informatie op internet.

Het idee is simpel: wie de grootste en meest geavanceerde taalmodellen heeft, heeft toegang tot het grootste deel van de kennis die voorhanden is. Dit heeft geleid tot enorme investeringen in zowel de benodigde rekenkracht als de toegang tot diverse databronnen. Bedrijven zoals OpenAI, Google en Meta proberen niet alleen in te halen, maar ook voorop te blijven lopen door steeds grotere modellen te creëren die kunnen worden getraind met biljoenen tokens. Tokens zijn de basiseenheden van taal, die bestaan uit woorden of delen van woorden, en hoe meer tokens een model kan verwerken, hoe nauwkeuriger en veelzijdiger het model kan worden.

De grote bedrijven hebben het voordeel dat ze beschikken over enorme rekencapaciteiten en toegang tot gigantische hoeveelheden data. Google, bijvoorbeeld, zette zijn interne teams opnieuw in om LaMDA en PaLM te ontwikkelen, terwijl Meta de Llama-serie introduceerde, waarbij telkens meer en meer parameters werden toegevoegd. De zoektocht naar het grootste model leidde uiteindelijk tot GPT-4, waarvan de exacte grootte tot op heden onbekend blijft, maar die volgens geruchten 1,7 biljoen parameters bevat. De vraag is echter niet alleen hoeveel parameters er nodig zijn, maar ook hoe de kwaliteit van de data bijdraagt aan de effectiviteit van deze modellen. De keuze van data is even belangrijk als de hoeveelheid ervan.

Naast de omvang van de modellen zelf, speelt de rekenkracht een cruciale rol. De race om de grootste modellen te creëren wordt mede gevoed door de toenemende vraag naar krachtige GPU’s (grafische verwerkingseenheden), die essentieel zijn voor het trainen van deze AI-systemen. Deze GPU’s, oorspronkelijk ontwikkeld voor het spelen van videogames, zijn nu van vitaal belang geworden voor de AI-industrie. De fabrikant NVIDIA speelt hierin een sleutelrol en heeft de markten niet alleen voorzien van de benodigde hardware, maar heeft ook geprofiteerd van de enorme vraag naar zijn producten, met een verdubbeling van de omzet in 2023.

De zoektocht naar meer efficiënte algoritmes gaat tegelijkertijd door. De hoeveelheid wetenschappelijk onderzoek naar verbeteringen in de architectuur van taalmodellen, zoals de Transformer-technologie, neemt exponentieel toe. Deze voortdurende innovaties zorgen ervoor dat de technologische vooruitgang in een razendsnel tempo doorgaat, wat weer bijdraagt aan de explosieve groei van de AI-industrie.

Toch is er naast de technische vooruitgang ook een groeiende bezorgdheid over de implicaties van deze technologie. De kracht van kunstmatige intelligentie kan niet alleen worden gemeten aan de hand van de grootte van het model, maar ook aan de ethische vragen die het oproept. Wetenschappers, politici en activisten maken zich steeds meer zorgen over het feit dat machines die we niet volledig begrijpen, mogelijk belangrijke beslissingen kunnen nemen die onze samenleving beïnvloeden. De angst bestaat dat AI kan worden misbruikt om desinformatie te verspreiden of zelfs onze economieën en werkplekken volledig te transformeren, wat leidt tot maatschappelijke instabiliteit.

Het is belangrijk dat er strikte richtlijnen en toezicht komen op de ontwikkeling van AI-systemen, vooral nu deze systemen in staat zijn om taken uit te voeren die voorheen alleen door mensen konden worden gedaan. De toekomst van AI zal in sterke mate afhangen van hoe we deze technologie reguleren en integreren in onze samenleving. De vraag is niet alleen of we AI moeten gebruiken, maar hoe we de macht die gepaard gaat met dergelijke technologieën kunnen beheren en ervoor zorgen dat deze ten goede komt aan de samenleving als geheel.

De technologische race is dus niet alleen een kwestie van wie de grootste en snelste AI kan bouwen, maar ook van wie de controle heeft over de informatie die door deze AI-systemen wordt gegenereerd. De ethische, maatschappelijke en economische gevolgen van deze ontwikkelingen zullen bepalen hoe deze nieuwe technologieën zich uiteindelijk zullen ontvouwen en of we de juiste beslissingen zullen nemen voor de toekomst.

Wat kan een AI leren van het lezen van alle boeken en kranten die ooit zijn geschreven?

De groeiende capaciteit van kunstmatige intelligentie wordt vaak gemeten in termen van de hoeveelheid data die beschikbaar is voor training. Het is algemeen bekend dat GPT-3, bijvoorbeeld, werd getraind met ongeveer 500 miljard tokens, waarvan de meerderheid afkomstig was van webpagina's, aangevuld met boeken en Wikipedia. Van de boeken waren er ongeveer 7.000 van auteurs die voor het eerst werkten binnen de genres fantasy en romantiek, terwijl de rest van de boeken onbekend is, maar waarschijnlijk online beschikbaar zijn. Het is dan de vraag: hoe ver kunnen we deze hoeveelheid gegevens uitbreiden? Er is nog steeds een enorme hoeveelheid tekst beschikbaar op het internet, met een conservatieve schatting van 5 miljard pagina's, wat neerkomt op 2 biljoen woorden. Echter, de echte kans ligt wellicht in het gebruik van hoogwaardige bronnen zoals boeken en kranten. De kwaliteit van de gebruikte tekst voor training is immers cruciaal.

Al meer dan twintig jaar is Google bezig met het digitaliseren van alle boeken die ooit zijn gepubliceerd. Hoewel het totale aantal onbekend blijft, wordt geschat dat het niet meer dan 120 miljoen boeken betreft. Van deze boeken zijn er al 40 miljoen gedigitaliseerd in 400 verschillende talen, voornamelijk uit universiteitsbibliotheken wereldwijd. Deze inspanningen hebben geleid tot de ontwikkeling van nieuwe generatie scan-tools. Het enige obstakel op dit moment is dus niet technologische, maar juridische en economische aard. Wat zou een systeem zoals GPT leren van het lezen van alle kranten, boeken en academische tijdschriften, zowel verleden als heden? En wat voor vaardigheden kunnen we verwachten bij dergelijke geavanceerde AI-systemen?

Hoewel bibliotheken en het internet, net als alle andere bronnen, niet onbegrensd zijn, komt er onvermijdelijk een moment waarop AI-modellen geen nieuwe tekst meer zullen vinden om van te leren. Naarmate de hoeveelheid beschikbare tekst afneemt, zullen deze modellen andere soorten data moeten verwerken, zoals beelden, video en audio. Er zijn al systemen die in staat zijn om van deze verschillende "modaliteiten" te leren. Zo kan Bard bijvoorbeeld de inhoud van beelden omschrijven, terwijl Dall-E afbeeldingen kan genereren op basis van tekstbeschrijvingen. Wat zal een toekomstige generatie GPT-modellen doen wanneer ze ook de nieuwste YouTube-video's kunnen analyseren?

De volgende stap in de evolutie van AI is dus de integratie van diverse gegevensbronnen, die ons leidt naar de ontwikkeling van zogenaamde "wereldmodellen". Modellen zoals GATO, ontwikkeld door DeepMind in 2022, bieden al een blik op de mogelijkheden van het combineren van verschillende datatypes. Dit model is in staat om video games te spelen, tekst te vertalen, robots te besturen, en nog veel meer. In december 2023 introduceerde Google DeepMind het gigantische Gemini-model, dat tekst, audio, video, afbeeldingen en code combineert in één enkele representatie. Deze aanpak van het combineren van verschillende informatiebronnen in één enkele representatie is mede mogelijk gemaakt door het werk van de Stanford-onderzoeker Fei-Fei Li, die de manier vond om een numerieke vector zowel aan een afbeelding als aan de bijbehorende tekst te koppelen.

Dit alles wijst op een toekomstige evolutie waarin machines niet alleen tekst begrijpen, maar ook de wereld om hen heen in verschillende vormen kunnen representeren en verwerken. Ze zullen uiteindelijk niet langer worden aangeduid als "taalmodellen", maar als "wereldmodellen". Dit markeert de overgang van een technologie die beperkt is tot een enkele bron van informatie, naar een technologie die de complexe realiteit van de wereld omarmt.

Wanneer GPT-4 werd uitgebracht, was het duidelijk dat we op de drempel stonden van een paradigmaverschuiving in kunstmatige intelligentie. De prestaties van GPT-4 waren opvallend dicht bij het menselijk niveau, en dit roept de vraag op of de volgende stap zal zijn naar supermenselijke prestaties. Turing voorspelde in 1951 al dat machines op termijn onze denkvermogen zouden overtreffen. Zijn gedachte was dat zodra machines begonnen te denken, het niet lang zou duren voordat ze onze zwakke vermogens zouden overtreffen. Dit idee is tegenwoordig meer relevant dan ooit, gezien de snelheid waarmee kunstmatige intelligentie zich ontwikkelt.

Er zijn verschillende manieren waarop kunstmatige intelligentie ons zou kunnen overtreffen, vooral in taken waar mensen vandaag de dag nog als onverslaanbaar worden beschouwd. Dit komt vaak doordat machines toegang hebben tot supermenselijke hoeveelheden ervaring, geheugen en rekenkracht. Er is echter een ander aspect: machines hoeven niet afhankelijk te zijn van de aannames die wij als mensen van nature maken. Zo gaan wij er bijvoorbeeld vanuit dat de wereld bestaat uit vaste objecten die via fysiek contact interageren. Dit soort "kernkennis" is van vitaal belang voor onze ontwikkeling, maar tegelijkertijd beperkt het ons begrip van zaken zoals de quantumwereld, waarin objecten geen vaste posities of duidelijke trajecten hebben. Machines kunnen mogelijk een ander soort kennis ontwikkelen, vrij van deze beperkingen, wat hen in staat zou stellen om patronen en verbanden te ontdekken die voor ons onbereikbaar blijven.

Na slechts zeven jaar sinds de publicatie van het artikel over de Transformer-architectuur, bevinden we ons op een pad dat niet alleen leidt naar de ontwikkeling van chatbots, maar naar een bredere, meer algemene kunstmatige intelligentie. Het is van cruciaal belang dat we deze ontwikkeling zowel met urgentie als voorzichtigheid verkennen. Microsoft Research, dat GPT-4 heeft geëvalueerd, merkte op dat GPT-4 waarschijnlijk slechts de eerste stap is in de ontwikkeling van steeds intelligenter systemen. Dit suggereert dat we aan de vooravond staan van een enorme verschuiving in het veld van de informatica en daarbuiten.

De vraag of machines kunnen denken, raakt niet alleen aan technische of wetenschappelijke nieuwsgierigheid, maar is diepgeworteld in de fundamentele menselijke vraag: wat betekent het om mens te zijn? Als machines daadwerkelijk kunnen denken en de wereld kunnen begrijpen, wat blijft er dan nog over van de mensheid, die zichzelf de titel Homo sapiens toekent? Het is van groot belang dat we de mechanismen die we tot nu toe bijna per ongeluk hebben ontdekt, volledig begrijpen.

Hoe werkt kunstmatige intelligentie in taalmodellen?

De ontwikkeling van kunstmatige intelligentie (AI) heeft geleid tot aanzienlijke vooruitgangen in de manier waarop machines menselijke taal begrijpen en gebruiken. Een van de belangrijkste stappen in deze vooruitgang is de zogenaamde "cloze test", een psychologische techniek die zijn oorsprong vond in de Gestaltpsychologie. Het idee achter deze test is eenvoudig: de menselijke geest heeft de neiging om ontbrekende delen van een afbeelding of tekst in te vullen, een verschijnsel dat bekendstaat als het ‘sluitingsprincipe’. Dit principe werd snel omgezet in een methode om de voortgang van taalleerders te meten. De eenvoud van de cloze test blijkt verrassend effectief te zijn: de scores die worden behaald in deze test correleren sterk met die van meer complexe vraagstellingen, zoals meerkeuzevragen. Dit suggereert dat het vermogen om ontbrekende woorden in een zin in te vullen nauw samenhangt met het vermogen om complexere vragen te beantwoorden. Beide capaciteiten lijken te steunen op een fundamenteel begrip van de inhoud van de tekst.

Deze bevinding heeft ons begrip van tekstbegrip herleid tot een probleem van woordvoorspelling of tekstaanvulling. Deze relatie tussen woordvoorspelling en tekstbegrip speelt een cruciale rol in de huidige revolutie van kunstmatige intelligentie, vooral als we kijken naar systemen die in staat zijn om voorspellingen te doen op basis van grote hoeveelheden tekstuele gegevens.

Een model van de wereld stelt ons in staat om te voorspellen of een situatie mogelijk, waarschijnlijk of onmogelijk is, zelfs als we deze situatie nog nooit eerder hebben ontmoet. Evenzo schat een taalmodel de waarschijnlijkheid dat een bepaalde reeks woorden zinvol is, en kan het dienen als een component in veel soorten intelligente systemen die met menselijke taal moeten interageren. Dankzij de opkomst van het Transformer-algoritme, dat in staat is om uitstekende taalmodellen te genereren zonder de noodzaak van menselijke annotaties, is het nu mogelijk om taalmodellen te ontwikkelen die verrassend goed de structuur van de wereld zelf modelleren.

De bekendste toepassing van zo'n systeem kwam in 2011, toen een Apple-executive Siri introduceerde. Dit systeem was in staat om vragen te beantwoorden door gegevens van verschillende modules te combineren, zoals informatie over restaurants, hun locatie, soort keuken en klantbeoordelingen. In tegenstelling tot de vroegere AI-systemen, die afhankelijk waren van vele afzonderlijke modules, maakt moderne kunstmatige intelligentie gebruik van een geïntegreerd model dat in staat is om veel complexere taken uit te voeren.

Een belangrijk onderdeel van deze systemen is het "model van de wereld" dat het systeem in staat stelt om voorspellingen te doen en op basis daarvan acties te kiezen. Elk intelligent agent heeft zo'n model nodig, of het nu gaat om een spamfilter die moet voorspellen of een nieuw bericht wel of niet relevant is, of een systeem dat medische vragen beantwoordt. De vraag rijst echter: wie levert de voorbeelden die nodig zijn om zo’n model te trainen?

Voor gespecialiseerde taken, zoals het herkennen van de onderwerpzin in een tekst, is het gebruikelijk om mensen in te schakelen die de nodige kennis hebben. Deze mensen worden gevraagd om specifieke taken uit te voeren en hun reacties worden gebruikt als basis voor het trainen van de algoritmes. Dit proces, bekend als “supervised learning” (begeleid leren), kan echter kostbaar zijn, aangezien het vereist dat mensen duizenden voorbeelden handmatig doornemen. Het wereldwijd gebruik van menselijke annotators is een enorm economisch systeem geworden, waarbij mensen vaak via online platforms zoals Mechanical Turk werken.

Aan de andere kant is er ook de mogelijkheid van onbewerkte data – data die niet handmatig wordt gecureerd, maar automatisch wordt verzameld door machines. Dit soort data, zoals beelden van bewakingscamera's of tekst van sociale media, is veel goedkoper en beschikbaar in grotere hoeveelheden. Het probleem met handgeannoteerde data is echter dat zodra een iets andere taak moet worden uitgevoerd, er vaak nieuwe gegevens van nul af aangeleverd moeten worden. Zo is de data die voor het trainen van een spamfilter werd gebruikt, niet geschikt voor het trainen van een model dat medische vragen moet beantwoorden.

Dit bracht de ontwikkeling van AI-systemen naar een stilstand, omdat de ervaring die in één taak werd opgedaan, niet kon worden overgedragen naar andere taken. Waarom zou een ander model hetzelfde proces van het herkennen van bijvoeglijke naamwoorden en bijwoorden moeten leren als een ander model dat al had geleerd? Dit leidde tot de gedachte dat we het probleem in twee delen zouden moeten splitsen: eerst algemene taalkundige kennis overdragen, en pas daarna een model specialiseren voor specifieke taken. Dit is vergelijkbaar met het onderwijs in basisscholen, waar we de basisprincipes van taal en wiskunde samen leren en pas later specialiseren.

In 2018 werd een doorbraak bereikt door onderzoekers van OpenAI. Ze ontdekten een manier om AI-agenten algemene taalkundige vaardigheden te leren via goedkope, onbewerkte data, voordat ze de systemen verder specialiseerden voor specifieke taken. Dit werd mogelijk gemaakt door een semi-supervised benadering, waarbij onbewerkte data (onbegeleide vooropleiding) werd gecombineerd met handgeannoteerde gegevens (begeleide fijnstemming). Deze doorbraak maakte het mogelijk om modellen te trainen die breed inzetbaar zijn voor uiteenlopende taken met weinig aanpassingen.

Het concept van ‘taalmodellen’ biedt dan ook een nieuw perspectief op hoe kunstmatige intelligentie getraind kan worden om menselijke interactie beter te begrijpen en te simuleren. Door gebruik te maken van grote hoeveelheden data kunnen AI-systemen de kans berekenen dat een bepaalde reeks woorden of zinnen betekenisvol is, wat essentieel is voor toepassingen zoals tekstgeneratie, chatbots en zoekmachines.

Hoewel deze systemen enorm krachtig zijn, moeten we ons realiseren dat er altijd beperkingen zijn aan wat AI kan begrijpen. Taalmodellen zijn uitstekend in het voorspellen van de meest waarschijnlijke voortzetting van een tekst, maar ze begrijpen de werkelijke betekenis van de tekst nog niet op dezelfde manier als mensen dat doen. Dit komt doordat het AI-systeem simpelweg afhankelijk is van statistische patronen in de data, en niet van diepere, bewuste betekenis.

De vooruitgang die is geboekt in de ontwikkeling van kunstmatige intelligentie biedt nieuwe mogelijkheden voor de manier waarop we communiceren en werken met technologie. Toch blijven fundamentele vragen over de grenzen van deze technologie bestaan, en blijft het noodzakelijk om kritisch na te denken over de rol van AI in onze maatschappij.