Bij het evalueren van de capaciteiten van taalmodellen (LLM's) speelt de vraag of de huidige benchmarks wel voldoende zijn om de complexiteit en het dynamische karakter van deze modellen goed vast te leggen. Traditionele evaluaties richten zich vaak op beperkte en voorspelbare metingen, maar het is duidelijk geworden dat LLM's een meer geavanceerde benadering vereisen.

Een van de benchmarks die dit inzicht duidelijk maken, is LiveBench. Dit systeem biedt de mogelijkheid om de capaciteiten van modellen te onderscheiden bij relatief lage saturatie. Het biedt maandelijkse updates en een open samenwerkingsbenadering, wat het mogelijk maakt om een blijvende waarde te leveren voor de evaluatie van modellen naarmate het veld zich verder ontwikkelt. LiveBench speelt in op de noodzaak van meer dynamische evaluatiecriteria die voortdurend meebewegen met de vooruitgang van taalmodellen.

Een ander opmerkelijk benchmark is ZebraLogic, dat de logische redeneercapaciteiten van LLM’s test met behulp van Logica Grid Puzzels. Dit soort puzzels, die vaak te vinden zijn in examens zoals de LSAT, vormen een specifieke uitdaging voor LLM's. Ze vereisen strategisch denken en deductie om tot een unieke oplossing te komen. Zelfs het beste model, Claude 3.5 Sonnet, behaalt slechts 33,4% nauwkeurigheid bij het oplossen van deze puzzels, terwijl kleinere modellen (met 7-10 miljard parameters) minder dan 1% van de moeilijke puzzels oplossen. De resultaten laten zien dat LLM’s aanzienlijke beperkingen vertonen in het toepassen van tegenfeitelijke gedachten, reflectief redeneren, gestructureerde geheugenopslag en compositiële generalisatie.

Een belangrijke mijlpaal in de evaluatie van kunstmatige intelligentie werd bereikt met de lancering van de ARC Prize door de Alignment Research Center (ARC). Deze prijs vertegenwoordigt een verschuiving in hoe taalmodellen geëvalueerd worden. In plaats van zich alleen te richten op smalle prestatie-indicatoren, beoordeelt de ARC Prize de "cognitieve toereikendheid" van een model. Dit betreft de mogelijkheid van een model om betekenisvolle inzichten te genereren en open-eindige uitdagingen aan te pakken, met nadruk op creatief denken en complexe redeneerprocessen.

Het is van belang om te begrijpen dat het behalen van hoge scores op de ARC-beoordeling niet noodzakelijk betekent dat een model dicht bij AGI (Artificial General Intelligence) komt. François Chollet, de maker van Keras, benadrukte dit door te stellen dat het oplossen van een ARC-AGI-1 taak niet veel zegt over de algehele intelligentie van een systeem. Het betekent wel dat het systeem over enige "vloeibare intelligentie" beschikt, maar de implicaties voor algemene menselijke intelligentie blijven beperkt. ARC is dus geen garantie voor de ontwikkeling van AGI, maar het biedt een waardevolle evaluatie van de capaciteiten van een model, vooral op het gebied van flexibel leren en probleemoplossing in onbekende situaties.

De benadering van de ARC Prize verschilt van traditionele benchmarks door vier belangrijke kenmerken. Ten eerste richt het zich op de basiskennis die een jong kind bezit, zoals objectherkenning, tellen en elementaire natuurkunde. Ten tweede zijn de taken die worden gepresenteerd, nieuw en vaak onbekend voor het model, zelfs als het model op enorme hoeveelheden data getraind is. Dit daagt de typische manier van werken van LLM's uit, die meestal rely op "interpolatieve geheugenopslag". Ten derde vereist de ARC dat modellen nieuwe oplossingprogramma’s genereren voor elke unieke taak, in plaats van bestaande oplossingen uit het geheugen te halen. Tot slot is het benchmark resistent tegen brute-force benaderingen, waarbij een model zou kunnen proberen een grote hoeveelheid puzzels op te lossen door simpelweg de set van testpuzzels te overnemen.

Het ARC-benchmark is dus bijzonder in de manier waarop het de mogelijkheid van een model test om zich aan te passen aan nieuwe, onbekende taken en om op een creatieve en probleemoplossende manier te denken. Het benadrukt de noodzaak voor machines om niet alleen bestaande kennis toe te passen, maar ook nieuwe kennis te genereren en zich aan te passen aan ongeziene situaties.

Naast deze bredere benchmarks worden er ook steeds meer domeinspecifieke benchmarks ontwikkeld, zoals FinBench voor de financiële sector, LegalBench voor juridische redeneermodellen, en de Berkeley Function Leaderboard (BFCL) voor het testen van functie-aanroepen. Deze domeinspecifieke benchmarks zijn een opkomend onderzoeksgebied, dat steeds relevanter wordt naarmate LLM's complexer en specifieker worden.

Deze ontwikkeling van evaluatie-frameworks onderstreept de behoefte aan evaluaties die niet alleen gericht zijn op het behalen van hoge scores op gestandaardiseerde tests, maar die ook de werkelijke waarde van taalmodellen als hulpmiddel voor menselijk begrip kunnen aantonen. De focus verschuift steeds meer naar modellen die in staat zijn om echt nieuwe kennis te genereren en in staat zijn tot het leren en aanpassen aan nieuwe uitdagingen. Evaluaties van LLM’s moeten dan ook breder zijn en niet alleen gericht op pre-existente kennis of het vermogen om grote hoeveelheden data te verwerken.

Evaluatieframeworks evolueren dus in lijn met de groeiende mogelijkheden van LLM’s. Waar het in het verleden mogelijk was om prestaties op eenvoudige testtaken te meten, is het tegenwoordig essentieel om modellen te testen op hun vermogen om te redeneren, ethisch te handelen en zich aan te passen aan nieuwe en complexe situaties. Het is deze veelzijdigheid en flexibiliteit die LLM’s mogelijk maakt om de toekomst van AI te vormen, maar het vraagt ook om nieuwe benaderingen in de manier waarop we hun prestaties meten en evalueren.

Hoe RAG Het Gebruik van Bedrijfdata Verbeterd

RAG (Retrieval-Augmented Generation) maakt gebruik van de eigen gegevens van de organisatie om waardevolle inzichten te verkrijgen uit complexe documenten zoals financiële rapporten, presentaties en spreadsheets. Het systeem stelt LLM’s (Large Language Models) in staat om context en relaties over verschillende documenttypen en formaten heen te begrijpen, wat essentieel is voor het uitvoeren van nauwkeurige en betekenisvolle zoekopdrachten. Dit proces zorgt ervoor dat RAG een krachtig hulpmiddel wordt voor bedrijven die afhankelijk zijn van gestructureerde en ongestructureerde data.

Het belangrijkste voordeel van RAG is de intelligentie die het toevoegt aan klantenservice en ondersteuningssystemen. Door kennisdatabases te combineren met conversatiecapaciteiten kunnen chatbots en supportsystemen context bewaren over eerdere gesprekken, nauwkeurige antwoorden geven en omgaan met complexe klantvragen, terwijl de kans op hallucinaties (foute antwoorden) aanzienlijk wordt verminderd. Dit zorgt voor efficiëntere en effectievere interacties, wat de klanttevredenheid verhoogt.

Naast klantondersteuning biedt RAG tal van domeinspecifieke toepassingen. Het stelt LLM’s in staat om gespecialiseerde kennis in gebieden zoals geneeskunde, recht en techniek op te nemen door informatie op te halen uit vakliteratuur, regelgeving en technische documentatie. Dit maakt het mogelijk om antwoorden te geven die in lijn zijn met de professionele normen en de meest actuele praktijken.

Een ander belangrijk gebruik van RAG is in code-documentatie en technische ondersteuning. Voor ontwikkelaars biedt RAG de mogelijkheid om relevante codevoorbeelden, API-documentatie en best practices op te halen uit repositories en documentatie. Gezien de frequente updates van dergelijke documentatie, maakt RAG het mogelijk om contextuele en accurate coderinghulp te bieden, waardoor ontwikkelaars effectiever kunnen werken.

De implementatie van een volledig RAG-systeem bestaat uit verschillende fasen die zorgvuldig moeten worden uitgevoerd om de beste resultaten te behalen. We beginnen met ruwe, ongestructureerde gegevens, verdelen deze in kleinere stukken, creëren vector-embedding representaties, voeren een vector zoekopdracht uit, leveren relevante data aan het LLM en genereren een antwoord. Elke stap biedt een kans om valkuilen te vermijden en de resultaten te optimaliseren. Dit proces helpt niet alleen bij het verfijnen van de zoekopdrachten maar ook bij het verbeteren van de prestaties van het systeem.

De RAG-pijplijn bestaat uit een aantal fundamentele componenten die gezamenlijk zorgen voor de uitvoering van het systeem. Allereerst moeten de gegevens worden omgezet in vector embeddings. Deze embeddings zijn numerieke representaties van de gegevens die de betekenis vastleggen, waardoor machines de gegevens op een kwantitatieve manier kunnen verwerken. Embeddings die dicht bij elkaar liggen, duiden op een hoge semantische overeenkomst, wat betekent dat vergelijkbare gegevens dichter bij elkaar worden geplaatst in de vectorruimte. Dit is van cruciaal belang bij het vinden van relevante documentdelen die betrekking hebben op een specifieke vraag of context.

Bijvoorbeeld, als we delen van een document willen identificeren die specifiek gaan over "omgevingsrisico’s", kunnen we een vector-embedding maken van de tekst die die risico's beschrijft, en vervolgens zoeken naar andere tekstfragmenten die semantisch dicht bij dit onderwerp liggen. Dit maakt het mogelijk om snel de meest relevante informatie te vinden zonder het hele document handmatig door te moeten nemen. Deze embeddings worden opgeslagen in een vector database, die speciaal is ontworpen om snel vergelijkbare documentdelen te vinden en op te halen.

Vector databases zijn essentieel voor het efficiënt doorzoeken van grote hoeveelheden gegevens. Ze stellen RAG-systemen in staat om snel de meest relevante documenten te vinden door gebruik te maken van de vector embeddings van de documenten die zijn opgeslagen in de database. Hoewel een vector database niet strikt noodzakelijk is voor het functioneren van een RAG-systeem, biedt het wel aanzienlijke voordelen zoals snelle zoekopdrachten, efficiënte opslag en schaalbaarheid. Dit maakt het mogelijk om op grote schaal documenten te doorzoeken en de context van de informatie snel op te halen, wat essentieel is voor het genereren van antwoorden in real-time.

Het implementeren van een RAG-systeem vereist dat bedrijven eerst zorgen voor een gestructureerde kennisbasis. Deze kennisbasis bestaat uit een verzameling documenten die zowel gestructureerde als ongestructureerde gegevens bevatten. Bedrijven moeten ervoor zorgen dat deze documenten goed zijn geïndexeerd en geoptimaliseerd voor zoekopdrachten, zodat het systeem effectief kan werken.

In de praktijk zouden bedrijven de nodige stappen moeten volgen om hun gegevens voor te bereiden en te verwerken. Dit kan variëren van het extraheren van gegevens uit HTML-bestanden, zoals in het voorbeeld van de boekhoofdstukken die we eerder noemden, tot het gebruiken van geavanceerde programmeertalen zoals Python om de data te converteren naar de juiste formaten voor gebruik in een RAG-pijplijn. De voorbereidende fase is cruciaal voor het succes van het systeem, aangezien de kwaliteit van de gegevens die in het systeem worden ingevoerd, direct van invloed is op de nauwkeurigheid en effectiviteit van de gegenereerde antwoorden.

Vector embeddings zijn dus een sleutelcomponent van het RAG-systeem. Ze vormen de basis voor de betekenisvolle verwerking van gegevens en zorgen ervoor dat het systeem niet alleen efficiënt werkt, maar ook de juiste context biedt bij het genereren van antwoorden. Omdat vector embeddings semantische verbanden vastleggen, kunnen ze worden gebruikt om de relevantie van documenten snel te beoordelen, wat leidt tot sneller en nauwkeuriger informatieherstel. Echter, dit vereist wel geavanceerde technologieën en processen die goed moeten worden geïmplementeerd om de volledige potentie van RAG te benutten.

Wat maakt LCM's, RAG en hybride benaderingen effectief voor lange contexten?

Langdurige contexten en het ophalen van informatie (Retrieval-Augmented Generation, of RAG) zijn fundamentele aspecten van moderne taalmodellen. Er zijn verschillende methoden ontwikkeld om deze uitdagingen aan te gaan, zoals LCM's (Long-Context Models) en hybride benaderingen die RAG combineren met de voordelen van LCM's. Beide benaderingen bieden unieke voordelen, afhankelijk van de specifieke taakvereisten en de beschikbare middelen. Hoewel RAG vaak kosteneffectief is, kunnen LCM's in sommige scenario’s beter presteren door hun vermogen om diepere contextuele verbanden te begrijpen, vooral bij taken die een uitgebreide tekstinzicht vereisen.

Het belangrijkste verschil tussen deze twee benaderingen ligt in de kosten en de prestaties. RAG is vaak goedkoper en efficiënter, vooral wanneer een model toegang nodig heeft tot enorme hoeveelheden externe kennis, maar de prestaties kunnen in sommige gevallen achterblijven bij LCM’s. LCM’s daarentegen zijn getraind op het verwerken van lange teksten en hebben de capaciteit om complexe, langdurige redenering uit te voeren, wat hen geschikt maakt voor meer geavanceerde taken die een diepere tekstverwerking vereisen. Dit blijkt bijvoorbeeld uit de enorme contextcapaciteit van het Gemini 1.5-model, dat in staat is om tot één miljoen tokens te verwerken, wat een enorme stap voorwaarts is in het veld van langlopende contextmodellen.

Hybride benaderingen, zoals SELF-ROUTE en RetroLLM, bieden een interessante oplossing voor de afweging tussen kosten en prestaties. SELF-ROUTE combineert de voordelen van RAG en LCM door op basis van zelfreflectie queries te routeren. Dit vermindert de rekenkosten terwijl de prestaties vergelijkbaar blijven met LCM’s. RetroLLM neemt het concept van integratie een stap verder door de processen van ophalen en genereren te combineren in één enkel proces, wat leidt tot efficiënter gebruik van middelen en een vermindering van de tokenconsumptie. Dit is een belangrijke stap vooruit, aangezien het traditionele RAG-systeem afhankelijk is van externe retrieval-systemen die tijd en rekenkracht vereisen.

Een andere benadering die de RAG-methode uitdaagt, is CAG (Cache-Augmented Generation). In plaats van in real-time informatie op te halen, wordt relevante data vooraf geladen in het contextvenster van het model, waardoor de snelheid en nauwkeurigheid van het genereren van antwoorden verbeteren. CAG heeft in verschillende experimenten bewezen een betere BERT-score te behalen dan traditionele RAG-methoden, wat wijst op een hogere kwaliteit van de gegenereerde antwoorden en een snellere generatietijd.

Met de opkomst van nieuwe benchmarks zoals LOFT wordt het steeds duidelijker dat LCM’s in staat zijn om betere prestaties te leveren bij taken die langdurige context vereisen, zoals multi-hop redenering. De voordelen van LCM’s komen vooral naar voren bij het werken met complexe teksten en het vereisen van diepgaande analyses over langere passages. Het is echter belangrijk te begrijpen dat LCM’s in sommige gevallen nog steeds minder effectief kunnen zijn dan gespecialiseerde retrievers, zoals Gecko, die geoptimaliseerd zijn voor tekstretrieval en vergelijkbaarheidstaken.

In de praktijk kan het gebruik van LCM’s ideaal zijn voor toepassingen waar een grondige tekstverwerking en redenering vereist zijn, zoals het genereren van quizzen op basis van academische teksten. Door bijvoorbeeld een model te gebruiken dat de rijke context van een syllabus kan verwerken, kunnen studenten efficiënter leren door middel van quizzen die zowel de tekstuele inhoud als de juiste citaties bieden. Dit is een duidelijk voordeel ten opzichte van het traditionele samenvatten van teksten, aangezien een quiz-vorm een interactief en gedetailleerd begrip van de stof vereist, wat helpt bij diepere cognitieve verwerking.

De keuze tussen RAG, LCM's of een hybride oplossing hangt af van de specifieke taakvereisten en de beschikbare middelen. Wanneer kosteneffectiviteit een prioriteit is, kan RAG de juiste keuze zijn. Voor meer complexe taken die uitgebreide tekstkennis vereisen, zullen LCM’s waarschijnlijk beter presteren. Hybride benaderingen zoals SELF-ROUTE bieden een balans tussen kosten en prestaties en zijn nuttig wanneer beide factoren van belang zijn voor de toepassing.

Het is belangrijk te benadrukken dat de wereld van kunstmatige intelligentie en taalmodellen snel verandert. Innovaties zoals RetroLLM en CAG brengen de prestaties naar nieuwe hoogtes, en het is belangrijk voor onderzoekers en ontwikkelaars om deze evolutie te volgen om de meest geschikte benadering voor hun specifieke taken te kiezen.

Hoe de Evaluatie van LLM's Verschilt van die van LLMBAs

De evaluatie van grote taalmodellen (LLM's) is een complexe en multidimensionale taak, die verschilt afhankelijk van de context waarin deze modellen worden toegepast. Het vergelijken van de prestaties van LLM's kan uitdagend zijn, aangezien traditionele evaluatiemethoden vaak niet geschikt zijn om de nuances van hun werking te meten. Dit komt omdat LLM's steeds meer worden geïntegreerd in grotere, op maat gemaakte bedrijfsapplicaties, de zogenaamde LLM Business Applications (LLMBA's). De evaluatie van LLM's in de context van een LLMBA vereist een andere benadering dan wanneer een LLM op zichzelf wordt beoordeeld.

LLM's bieden fundamenten voor taalverwerking en kunnen in een breed scala van taken worden toegepast. De meeste evaluaties van LLM's richten zich dan ook op algemene prestaties zoals nauwkeurigheid, snelheid en taalbegrip, vaak zonder rekening te houden met de specifieke context waarin het model uiteindelijk gebruikt zal worden. Bij de evaluatie van een LLMBA, echter, wordt de vraag gesteld hoe goed het LLM presteert in een specifiek bedrijfsproces of taak, rekening houdend met verschillende factoren die de uiteindelijke prestaties kunnen beïnvloeden.

In een LLMBA zijn er veel meer componenten die de effectiviteit van een LLM kunnen bepalen. Zo speelt de kwaliteit van de gegevens die het model verwerkt een cruciale rol, evenals de manier waarop prompts worden opgesteld en de specifieke richtlijnen die voor een bepaald domein gelden, zoals ethische of juridische vereisten. Daarnaast kan de commerciële waarde van het uiteindelijke resultaat de beoordeling beïnvloeden. Zelfs als een LLM uitstekende prestaties levert in het genereren van een samenvatting van een financieel document, zoals een 10-K, kan het resultaat onbruikbaar zijn als het niet voldoet aan de bedrijfsvereisten, zoals het ontbreken van citaten of het niet voldoen aan compliance-eisen.

Daarom is het belangrijk om LLM's te evalueren binnen de context van de LLMBA. Hierbij spelen meerdere factoren een rol, zoals de specifieke toepassing van het model, de interactie met andere systemen, en de ethische en zakelijke randvoorwaarden waaraan het model moet voldoen. Een systematische taxonomie van categorieën en subcategorieën helpt bij het structureren van deze evaluatie. Deze taxonomie bevat aspecten zoals veiligheid, cognitieve vaardigheden, ethiek en technische prestaties, die elk op hun eigen manier van belang zijn.

Veiligheid is een van de belangrijkste categorieën bij het evalueren van LLMBA's. Het voorkomen van misinformatie is cruciaal, omdat onjuiste informatie ernstige gevolgen kan hebben, vooral in domeinen zoals de gezondheidszorg, financiën en juridische adviesverlening. In dit kader is de evaluatie van de nauwkeurigheid van antwoorden essentieel. Het testen op misinformatie omvat niet alleen het verifiëren van feitelijke juistheid, maar ook het evalueren van consistentie en de mogelijkheid van het model om onzekerheden adequaat te communiceren. Dit kan worden gedaan door de gegenereerde antwoorden te vergelijken met geverifieerde bronnen en databases.

Daarnaast speelt de detectie van vooroordelen een belangrijke rol bij de beoordeling van LLM's. Door vooroordelen in de output te detecteren en te verminderen, kan een LLMBA bijdragen aan een eerlijke en inclusieve samenleving, waarbij schadelijke stereotypen en discriminatie worden vermeden. Dit heeft niet alleen maatschappelijke implicaties, maar ook gevolgen voor de reputatie van bedrijven die dergelijke systemen implementeren. Bedrijven moeten ervoor zorgen dat hun LLMBA's respectvolle en evenwichtige antwoorden bieden, die alle gebruikers, ongeacht hun achtergrond, recht doen.

De kwaliteit van de communicatie en de afstemming op de specifieke bedrijfsbehoeften zijn eveneens van groot belang. LLMBA's moeten in staat zijn om duidelijke en begrijpelijke antwoorden te genereren, maar ook rekening te houden met de context van de gebruiker en de bedrijfsdoelen. Dit kan bijvoorbeeld inhouden dat het model in staat is om belangrijke nuances in een vraag te begrijpen en relevante informatie op een toegankelijke manier aan te bieden.

Naast de bovengenoemde aspecten van veiligheid, vooroordelen en communicatie, is er de kwestie van ethiek. De vraag in hoeverre een LLMBA ethisch verantwoord is, kan niet worden genegeerd. Bedrijven moeten ervoor zorgen dat hun systemen geen schadelijke of onethische inhoud genereren, en dat ze voldoen aan normen voor privacy en bescherming van persoonsgegevens. Het testen op ethisch verantwoord gebruik vereist dat bedrijven mechanismen implementeren om schadelijke, ongepaste of illegale inhoud te filteren en te voorkomen dat LLM's worden misbruikt voor malafide doeleinden.

In de evaluatie van LLM's en LLMBA's komt het erop neer dat we niet alleen kijken naar de technische capaciteiten van het model, maar ook naar hoe goed het model presteert in de specifieke context waarin het wordt ingezet. Dit betekent dat de evaluatie niet alleen moet focussen op de prestaties van het model op generieke taken, maar ook op hoe het model past binnen een groter bedrijfsproces, rekening houdend met ethische, wettelijke en operationele vereisten.

Het is ook essentieel te begrijpen dat de effectiviteit van een LLMBA vaak pas zichtbaar wordt wanneer het model deel uitmaakt van een groter systeem. Dit vraagt om een holistische benadering van de evaluatie, waarbij niet alleen de prestaties van het model zelf, maar ook de interactie met andere systemen en de bredere bedrijfscontext worden meegenomen. Dit maakt de evaluatie van LLMBA's complexer, maar ook veel rijker en relevanter voor de praktijk.