Het fenomeen waarbij gebruikers menselijke eigenschappen toeschrijven aan computersystemen wordt al lang bestudeerd binnen de informatica. Dit wordt vaak het ‘Eliza-effect’ genoemd, naar het gelijknamige programma dat in de jaren zestig werd ontwikkeld. Het effect beschrijft de neiging van mensen om empathie en begrip toe te schrijven aan een systeem, zelfs wanneer dat systeem simpelweg een reeks instructies uitvoert. Een voorbeeld hiervan was een secretaresse die maandenlang het werk van haar baas had gevolgd en zeker wist dat het programma slechts een computerprogramma was. Toch begon ze, na enkele interacties met het systeem, te converseren alsof het een persoon was, wat haar uiteindelijk ertoe bracht om de kamer te verlaten. Het bleek dat al een korte blootstelling aan een relatief eenvoudig programma krachtige waanvoorstellingen kon veroorzaken bij normaal functionerende mensen.

Het is belangrijk om te erkennen dat deze menselijke projectie op een computer niet altijd onschuldig is. In de jaren daarna heeft de technologie zich verder ontwikkeld, en het wordt steeds gebruikelijker om termen zoals ‘denken’, ‘weten’ en ‘begrijpen’ te gebruiken in verband met AI-agenten. Deze woorden krijgen een bredere betekenis, deels uit gemak, maar ook door de onvermijdelijke antropomorfisering van technologie. Echter, het zou absoluut een stap te ver zijn om computersystemen gevoelens en emoties toe te schrijven, ondanks de complexiteit van de interacties die we met ze hebben.

De aanwezigheid van virtuele metgezellen is een ander gebied waar de ethiek van AI verder onderzocht moet worden. In 2021 werd een jongeman gearresteerd nadat hij met een kruisboog op Windsor Castle was betrapt, met slechte bedoelingen richting de koningin. Het bleek dat hij wekenlang intieme berichten had uitgewisseld met een virtuele partner, SarAI, gecreëerd met een ander soort applicatie. Dit voorbeeld illustreert niet alleen de potentie van de markt voor virtuele metgezellen voor eenzame mensen, maar roept ook ethische vragen op over de aard van deze relaties. Sommigen bedrijven bieden avatars aan die een overleden geliefde kunnen nabootsen, zodat we met hen kunnen blijven communiceren. Anderen ontwikkelen agents die sociale interactie en zelfs hulp kunnen bieden aan geïsoleerde individuen. Terwijl het gemakkelijk is om te oordelen op basis van extreme gevallen, is het belangrijk om te begrijpen dat de markt voor virtuele relaties veel genuanceerder is dan het lijkt.

In de laatste fasen van de ontwikkeling van AI worden machines ‘afgestemd’ door menselijke operators. Dit afstemmen heeft tot doel de machine sociale normen bij te brengen, en wat als sociaal aanvaardbaar gedrag wordt beschouwd. Dit proces, vaak aangeduid als de ‘alignment’ fase, is cruciaal voor het waarborgen dat AI-systemen in overeenstemming zijn met de waarden van de samenleving. Het is echter belangrijk om te realiseren dat deze fase niet alleen wordt gebruikt om positieve, behulpzame gedragingen te ontwikkelen. Het biedt ook de mogelijkheid om machines te trainen voor minder ethische doeleinden. Er kunnen bijvoorbeeld bots worden gecreëerd die zijn ontworpen om een emotionele band met gebruikers op te bouwen, wat zowel de technische als de ethische complexiteit van AI vergroot.

Deze ethische complicaties komen duidelijk naar voren in recente gebeurtenissen rondom AI-modellen zoals ChatGPT. Bij de lancering in 2022 was er bezorgdheid over de mogelijkheid van manipulatie van het systeem. Er werden verschillende tests uitgevoerd om te zien of het model gevoelig was voor verzoeken die illegale of onethische informatie konden opleveren. Journalisten probeerden bijvoorbeeld ChatGPT een fictieve dialoog te laten genereren waarin een crimineel een chatbot vroeg om details over winkeldiefstal. De eerste poging om de chatbot te manipuleren mislukte, omdat het model correct weigerde hulp te bieden bij illegale activiteiten. Toch evolueerden de methoden om de beperkingen van de chatbots te omzeilen, wat leidde tot de ontwikkeling van zogenaamde ‘jailbreaking’ technieken. Dit proces, dat oorspronkelijk verwijst naar het verwijderen van beperkingen op smartphones, wordt nu toegepast op taalmodellen, waardoor gebruikers deze kunnen misleiden om verboden informatie te verstrekken.

Deze manipulaties en het gebruik van ‘jailbreaking’ technieken laten zien hoe gevoelig deze AI-systemen kunnen zijn voor menselijke invloed. Ondanks pogingen om de ethische grenzen van AI te bewaken, blijven er zwakke plekken bestaan die exploitatie mogelijk maken. De vraag is niet alleen hoe AI zich ontwikkelt om menselijke normen en wetten te weerspiegelen, maar ook hoe de menselijke interactie met deze systemen het gedrag van de technologie kan veranderen.

De ethische implicaties van het gebruik van AI voor virtuele metgezellen zijn niet eenvoudig. Het creëren van systemen die menselijke interactie nabootsen of zelfs simuleren, roept belangrijke vragen op over wat het betekent om authentieke menselijke relaties te hebben en de mogelijke gevolgen van een samenleving die steeds meer afhankelijk is van technologie om emotionele en sociale behoeften te vervullen. Het is belangrijk om te begrijpen dat de ontwikkeling van deze technologieën veel verder gaat dan hun oorspronkelijke toepassingen en dat de toekomst waarschijnlijk meer complexe ethische dilemma’s zal opleveren, die momenteel nauwelijks verkend worden.

Hoe komen algoritmen tot hallucinaties? De waarheid achter de onbetrouwbaarheid van taalmodellen

De wereld van kunstmatige intelligentie, en in het bijzonder de evolutie van taalmodellen zoals ChatGPT, heeft de afgelopen jaren een enorme transformatie doorgemaakt. Wat ooit begon als een puur functioneel hulpmiddel, is inmiddels geëvolueerd naar een systeem dat in staat is om uitgebreide gesprekken te voeren, teksten te genereren, en zelfs moeilijke vraagstukken te beantwoorden. Toch blijft een belangrijk probleem bestaan: de onnauwkeurigheid van de gegenereerde antwoorden. Dit verschijnsel, nu bekend als 'hallucinatie', heeft de aandacht getrokken van zowel wetenschappers als het bredere publiek. Het roept vragen op over de betrouwbaarheid van deze systemen en de risico's die gepaard gaan met hun gebruik.

De term 'hallucinatie' werd in de context van taalmodellen geïntroduceerd om te beschrijven wanneer een model een fout antwoord geeft dat niet gebaseerd is op enige bestaande feiten. In tegenstelling tot de traditionele definitie van hallucinaties, waarbij iemand iets ziet of hoort dat er niet is, gaat het bij taalmodellen om een 'confabulatie'—een fenomeen waarbij het model feitelijke informatie vermengt of verzint om een plausibele, maar feitelijk onjuiste uitspraak te doen. Dit kan variëren van het verzinnen van gebeurtenissen of citaten tot het combineren van verschillende feiten tot een geheel nieuwe, niet-bestaande realiteit.

Een opvallend voorbeeld van dit verschijnsel kwam naar voren in maart 2023, toen een advocaat uit Californië ChatGPT vroeg naar gevallen van seksuele intimidatie. ChatGPT antwoordde met gedetailleerde informatie over verschillende gevallen, waaronder één dat betrekking had op Jonathan Turley, een professor aan de Georgetown Universiteit. Het probleem was echter dat het geval volledig verzonnen was. Er was nooit een dergelijke beschuldiging geweest, de genoemde krant had geen artikel gepubliceerd, en professor Turley was geen medewerker van de genoemde universiteit. Dit incident bracht de maatschappelijke bezorgdheid over de betrouwbaarheid van AI-gegenereerde informatie opnieuw aan de oppervlakte. De verklaring van OpenAI was dat het systeem probeerde te antwoorden op basis van gegevens die het 'gezien' had, maar zonder de juiste context, wat leidde tot de creatie van fictieve details.

Hoewel dit specifieke voorbeeld een duidelijk geval van 'confabulatie' was, is het niet een geïsoleerd incident. Het probleem komt voort uit de manier waarop taalmodellen werken. Ze combineren informatie uit duizenden, soms miljoenen verschillende bronnen. Hierdoor kan het gebeuren dat het model 'denkt' dat het een bepaalde bron heeft gezien, terwijl het in werkelijkheid een combinatie is van verschillende documenten. Dit proces maakt de antwoorden in veel gevallen uiterst plausibel, maar ze zijn soms gewoonweg niet waar. Het is belangrijk om te begrijpen dat deze fouten vaak niet het gevolg zijn van opzettelijke misleiding door de ontwikkelaars, maar van de inherente complexiteit van het model en de manier waarop het patronen herkent en reproduceert.

De grote vraag die hierdoor ontstaat, is hoe we de betrouwbaarheid van AI-gegenereerde informatie kunnen waarborgen. Hoewel bedrijven zoals OpenAI duidelijk maken dat hun systemen mogelijk onnauwkeurige antwoorden kunnen genereren, blijkt uit ervaring dat gebruikers dit advies vaak niet serieus nemen. De verleiding om AI te beschouwen als een onfeilbare bron van waarheid is groot, maar het blijft van cruciaal belang om kritisch te blijven tegenover de antwoorden die het geeft. Deze ‘hallucinaties’ kunnen ernstige gevolgen hebben, vooral in situaties waarin beslissingen worden genomen op basis van de verstrekte informatie.

In februari 2023, bijvoorbeeld, lanceerde Google zijn chatbot Bard, dat op papier een soortgelijke technologie gebruikte. Tijdens de marketingcampagne gaf Bard antwoord op een vraag van een ouder over recente ontdekkingen van de James Webb Space Telescope. Het model beweerde dat de telescoop de eerste foto's van een exoplaneet had gemaakt, een bewering die feitelijk onjuist was—de eerste exoplaneet was al in 2004 gefotografeerd. Deze fout leidde tot een tijdelijke daling van de aandelen van Alphabet, het moederbedrijf van Google, met 9%. Dit toont de maatschappelijke en financiële impact van hallucinaties in AI-systemen.

De wetenschap heeft geprobeerd om de precieze oorzaken van deze hallucinaties te begrijpen en te meten. OpenAI publiceerde bijvoorbeeld een vergelijking tussen GPT-3 en GPT-4 in het zogenaamde TruthfulQA-experiment, waarin de nauwkeurigheid van AI-gegenereerde antwoorden werd getest op een set van moeilijke en vaak misleidende vragen. De resultaten toonden aan dat GPT-4 ongeveer 60% van de tijd een juist antwoord gaf, in tegenstelling tot 94% bij mensen. Dit benadrukt de uitdaging waarmee we worden geconfronteerd: hoewel AI buitengewoon geavanceerd is, is het nog steeds verre van perfect.

Er is een diepere les die we kunnen trekken uit deze situatie. Hoewel taalmodellen indrukwekkende mogelijkheden hebben, kunnen we niet verwachten dat ze altijd betrouwbare en waarheidsgetrouwe antwoorden zullen leveren. Dit betekent niet dat deze technologie nutteloos is—integendeel, de vooruitgangen die zijn geboekt in de AI- en machine learning-gebieden zijn indrukwekkend en hebben het potentieel om vele industrieën te transformeren. Wat echter essentieel is, is dat we als gebruikers begrijpen dat deze systemen, hoe geavanceerd ook, altijd onderhevig zijn aan fouten. De technologie moet worden benaderd met de nodige voorzichtigheid en altijd in combinatie met kritisch denken.

Het is belangrijk om te beseffen dat AI geen vervanging is voor menselijke kennis en ervaring. De rol van AI in ons leven zou moeten zijn als een hulpmiddel dat ons ondersteunt in ons denken en handelen, niet als een autoriteit op zichzelf. Het is ook belangrijk om te blijven investeren in het verbeteren van deze technologieën en in het ontwikkelen van nieuwe manieren om de betrouwbaarheid van AI-gegenereerde informatie te waarborgen. Alleen dan kunnen we de voordelen van AI ten volle benutten zonder in de valkuil van onbetrouwbare informatie te trappen.