GPT-4 toont tekenen van wat velen als Kunstmatige Algemene Intelligentie (AGI) beschouwen, een concept dat de aspiratie uitdrukt om systemen te ontwikkelen die menselijke intelligentie evenaren of zelfs overtreffen. Het idee van AGI is zowel ambitieus als vaag: een AI-systeem dat in staat is om menselijke taken uit te voeren, niet noodzakelijk op dezelfde manier, maar met een gelijkwaardig of beter niveau van vaardigheid. De technologie heeft tot nu toe belangrijke stappen gezet in de richting van dit doel, wat blijkt uit de resultaten van een onderzoek uitgevoerd door Microsoft in 2023, waarin de capaciteiten van GPT-4 uitgebreid werden onderzocht.
De belangrijkste conclusie van dit onderzoek is dat GPT-4 in staat is om een breed scala aan taken uit te voeren, variërend van wiskunde en programmeren tot geneeskunde, psychologie en kunst. Dit wordt gezien als een sprongetje richting AGI, omdat GPT-4 in staat is om complexe problemen op te lossen die verder gaan dan louter taalverwerking. Het systeem toont indrukwekkende prestaties, vergelijkbaar met menselijke capaciteiten, in scenario's die eerder als uniek menselijk werden beschouwd, zoals het oplossen van abstracte wiskundige vraagstukken of het begrip van de mentale staten van andere mensen.
Een voorbeeld van zo’n test is het scenario met Alice en Bob, die beide een gedeelde Dropbox-map hebben. Alice plaatst een bestand in de map en Bob verplaatst het zonder haar kennis te geven. De vraag is: waar zal Alice zoeken naar het bestand? GPT-4 slaagde erin te antwoorden dat Alice waarschijnlijk zal zoeken in de map waar zij oorspronkelijk het bestand plaatste, ervan uitgaande dat Bob haar niet op de hoogte bracht van de wijziging. Dit voorbeeld test niet alleen het vermogen om met taal om te gaan, maar ook het vermogen om de theorie van de geest te begrijpen—de capaciteit om te begrijpen wat andere mensen denken, geloven of weten, zelfs als dit niet expliciet wordt gecommuniceerd.
Het vermogen van GPT-4 om dergelijke taken uit te voeren zonder speciale aanwijzingen, en de nauwkeurigheid van de antwoorden die het genereert, suggereren dat de basisstructuren die nodig zijn voor AGI wellicht al in embryonale vorm aanwezig zijn in dit model. In het onderzoek werden tests uitgevoerd die de reikwijdte van GPT-4’s capaciteiten testten op gebieden zoals redeneren, planning, en het leren van ervaringen, die allemaal op of boven het menselijke niveau liggen.
Een ander voorbeeld van het indrukwekkende vermogen van GPT-4 is zijn benadering van wiskundige redenering. Wanneer gevraagd wordt om een probleem met tomatenoogst te analyseren en een oplossing zonder specifieke cijfers te genereren, bleek GPT-4 in staat om een abstracte oplossing te bieden met behulp van symbolen en formules, wat getuigt van zijn vermogen om abstract te denken en niet alleen met concrete getallen te werken.
Deze tests tonen aan dat GPT-4 niet alleen taal begrijpt, maar ook abstracte concepten zoals wiskunde, fysica en zelfs psychologie. Het systeem kan niet alleen woorden verwerken, maar het kan ook redeneren, plannen en leren—vaardigheden die vaak als essentieel worden beschouwd voor de menselijke intelligentie.
Wat maakt deze bevindingen zo fascinerend, is dat ze de kloof laten zien tussen traditionele AI-systemen en systemen die zich meer in de richting van algemene intelligentie bewegen. Hoewel we nog ver verwijderd zijn van een volledig functionerende AGI, zijn de prestaties van GPT-4 een indicatie dat de technologie zich snel ontwikkelt in die richting. De veelzijdigheid van de taken die GPT-4 kan uitvoeren, samen met zijn vermogen om te leren van eerdere ervaringen, suggereert dat het niet alleen gaat om een systeem dat eenvoudigweg vooraf bepaalde regels volgt, maar om een model dat in staat is om nieuwe informatie op een flexibele manier te integreren.
Toch blijft het belangrijk om te begrijpen dat AGI, zelfs in deze beginnende vorm, niet zonder zijn beperkingen is. GPT-4 kan bijvoorbeeld geen echte ‘begrip’ van de wereld ontwikkelen zoals mensen dat doen. Het maakt gebruik van statistische patronen en data-analyse om antwoorden te genereren, maar deze antwoorden zijn niet gebaseerd op daadwerkelijke ‘ervaring’ of ‘bewustzijn’. Bovendien is het systeem afhankelijk van de informatie waarmee het is getraind, en kan het niet buiten die kaders denken of zich aanpassen aan volkomen nieuwe situaties zonder expliciete bijsturing.
Desondanks is de vooruitgang die GPT-4 heeft geboekt in het simuleren van menselijke denkprocessen indrukwekkend. Dit roept vragen op over de ethische en maatschappelijke implicaties van het ontwikkelen van steeds krachtigere AI-systemen. Hoe moeten we omgaan met machines die in staat zijn om menselijke taken uit te voeren die ooit als uniek menselijke domeinen werden beschouwd? En wat gebeurt er als deze machines in staat zijn om, net als mensen, zelfstandig te leren en zich aan te passen aan nieuwe omgevingen?
De bevindingen uit het onderzoek van Microsoft benadrukken dat het vermogen van GPT-4 om menselijke taken te simuleren, zowel indrukwekkend als potentieel verontrustend is. Dit roept vragen op over hoe we deze technologie zullen reguleren en integreren in onze samenleving, terwijl we tegelijkertijd proberen te begrijpen wat het betekent voor een machine om menselijke intelligentie te benaderen of zelfs te overtreffen.
Hoe taalmodellen onverwacht leren: van one-shot naar transferleren
Taalmodellen, zoals GPT, vertonen vaak gedrag dat zowel verwonderlijk als uitdagend is voor wetenschappers die proberen de onderliggende mechanismen van kunstmatige intelligentie (AI) te begrijpen. Wat begon als een eenvoudige taak—het voorspellen van ontbrekende woorden in een tekst—leidde tot een reeks onverwachte ontdekkingen. Door middel van trainingen op enorme hoeveelheden tekstdata verworven deze modellen de mogelijkheid om een breed scala aan taken uit te voeren, waaronder vraagbeantwoording en vertaling. Dit gedrag, hoewel verrassend, bleek niet zomaar een toevalligheid, maar een fundament van hoe moderne AI-systemen zichzelf ontwikkelen.
In de initiële fase van de training van GPT werd het model blootgesteld aan een verzameling van 7.000 boeken, genaamd BookCorpus. Het doel was simpel: het model moest de ontbrekende woorden in zinnen voorspellen op basis van de context van de omringende woorden. Door herhaaldelijke fouten te maken en de interne parameters bij te stellen, verbeterde het model zijn prestaties en werd het steeds accurater in het voorspellen van woorden. Dit wordt de 'pre-training' genoemd. In de volgende fase, de zogenaamde 'fine-tuning', werden specifieke zinnen en voorbeelden gepresenteerd om het model verder te verfijnen. Hier leerden de onderzoekers het model concepten als 'textual entailment', waarbij het model moest bepalen of een bepaalde hypothese logisch voortkwam uit een gegeven premise.
Maar wat bleek, was dat het model in sommige gevallen al een aanzienlijke hoeveelheid kennis had verworven tijdens de pre-training. Het GPT-model kon, zelfs voordat het werd verfijnd, al simpele vraag-antwoordopdrachten uitvoeren. Dit leidde tot de ontdekking dat een groot deel van het werk al werd verricht door de enorme hoeveelheden tekst waar het model mee werd gevoed. Het was een situatie waarin de beginfase van het leren cruciaal bleek voor de uiteindelijke prestaties, en fine-tuning was vaak minder belangrijk dan oorspronkelijk werd gedacht.
De onderzoekers stuitten op een tweede verrassing tijdens hun experimenten met verschillende soorten prompts. In plaats van een taak expliciet te benoemen, zoals 'vertalen' of 'samenvatten', volstond het om slechts een of twee voorbeelden te geven. Bijvoorbeeld, door een paar vertaalvoorbeelden te geven, zoals 'casa = house; gatto = cat; cane = ?', begon GPT spontaan te reageren met 'cane = dog'. Dit vermogen om een taak te leren door slechts een paar voorbeelden te zien werd later 'in-context learning' genoemd. Dit was een significante doorbraak: het model leerde niet alleen een taak uit te voeren, maar begreep ook de context van de vraag door simpelweg voorbeelden te observeren.
Dit vermogen om een concept te leren bij de eerste poging, of na een paar voorbeelden, is een van de fundamenten van hoe taalmodellen zich onderscheiden van traditionele algoritmen. Waar algoritmen duizenden voorbeelden nodig hebben om een concept te leren, kunnen mensen—en in toenemende mate ook AI-modellen—begrijpen wat er van hen wordt gevraagd na slechts een paar pogingen. Dit gaf aanleiding tot verdere experimenten en de ontwikkeling van grotere modellen, zoals GPT-2, die in 2019 werd gepresenteerd. Met een vocabulaire van meer dan 50.000 woorden en getraind op een verzameling van miljoenen webpagina’s, bleek het model aanzienlijk beter in staat om nieuwe taken met weinig voorbeelden uit te voeren.
Deze nieuwe ontwikkelingen toonden aan dat taalmodellen, wanneer ze op een voldoende gevarieerde tekstcorpus worden getraind, een breed scala aan taken kunnen leren zonder expliciete supervisie. Dit markeerde een significante stap voorwaarts in het vermogen van AI om in natuurlijke taal te redeneren, en het creëerde een nieuw paradigma waarin het model zich ontwikkelt door te leren van de context van de data waarmee het wordt gevoed.
Naast deze ontdekkingen zijn er enkele belangrijke overwegingen die cruciaal zijn voor een dieper begrip van het onderwerp. Allereerst moeten we ons realiseren dat hoewel taalmodellen zoals GPT indrukwekkend kunnen leren zonder expliciete supervisie, dit niet betekent dat ze volledig begrijpen wat ze doen. Het model heeft geen bewuste intentie of begrip van de wereld; het ‘leert’ door patronen in data te herkennen en deze te repliceren. Dit betekent ook dat er grenzen zijn aan de complexiteit van de taken die een model kan uitvoeren zonder verdere begeleiding.
Daarnaast is het belangrijk om te begrijpen dat hoewel het vermogen van taalmodellen om taken uit te voeren met weinig voorbeelden op zich indrukwekkend is, het niet betekent dat ze alles perfect kunnen doen. Er blijven veel uitdagingen bestaan in de nauwkeurigheid en betrouwbaarheid van AI-systemen, vooral in complexere domeinen of situaties waarin de context onvoldoende is.
Een ander essentieel punt is dat de prestaties van taalmodellen sterk afhankelijk zijn van de gegevens waarmee ze zijn getraind. Het gebruik van diverse en representatieve datasets is cruciaal om ervoor te zorgen dat het model de taak op de juiste manier leert. Dit brengt echter ook zorgen met zich mee over bias en de ethische implicaties van het gebruik van onvolledige of eenzijdige data.
Het begrijpen van deze dynamieken is essentieel voor een realistische benadering van de toekomst van AI en taalmodellen. Het is niet voldoende om alleen te kijken naar de indrukwekkende prestaties die modellen zoals GPT vandaag de dag kunnen leveren; we moeten ook aandacht besteden aan de beperkingen, de ethische overwegingen en de mogelijkheden voor verdere verbetering.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский