In de context van autonome systemen, zoals zelfrijdende voertuigen (AV's), spelen verschillende soorten onzekerheid een cruciale rol bij het bepalen van de effectiviteit van de beslissingen die deze systemen nemen. Een specifiek aspect van onzekerheid in dit domein betreft de grenzen tussen objecten en de achtergrond. Bijvoorbeeld, bij taken zoals het onderscheiden van de voorgrond van de achtergrond of het bepalen van de rijweg voor een AV, kan semantische onzekerheid zich uiten op het niveau van hele klassen (zoals wanneer de lucht als rivier wordt geïdentificeerd) of in de grensgebieden van die klassen (bijvoorbeeld wanneer enkele pixels langs de grens tussen de weg en de bomen onterecht worden toegewezen). Vooral dit laatste type onzekerheid is moeilijk te vermijden. De meeste verliesfuncties en evaluatiemechanismen die worden gebruikt bij semantische segmentatie richten zich voornamelijk op de semantische toewijzing op pixel-niveau voor het gehele beeld, in plaats van op de semantische grenzen. Dit is echter een belangrijk punt bij taken die van cruciaal belang zijn voor de veiligheid, zoals autonoom rijden, waar de nauwkeurige bepaling van de weggrenzen essentieel is.

Onzekerheid in semantische grenzen is vaak het resultaat van zowel epistemische onzekerheid (kennisgebonden) als aleatorische onzekerheid (toeval). Bijvoorbeeld, een model kan onzeker zijn over de grens van de weg vanwege beperkte gegevens, verborgen objecten of de beperkingen van de gebruikte machine learning-modellen. Dit soort onzekerheid kan worden gekwantificeerd met behulp van technieken zoals Relevance Vector Machines (RVM) of Monte Carlo Dropout. De rol van deze technieken is om de mate van onzekerheid in de voorspellingen van een model te meten, wat belangrijk is voor het verbeteren van de prestaties van robotica in complexe omgevingen.

Verder kan het idee van verbeelding en toekomstvoorspelling in robots worden gezien als een parallelle vorm van menselijke cognitieve ontwikkeling. De mogelijkheid om zich een toekomstscenario voor te stellen helpt mensen risico's in te schatten en efficiënte beslissingen te nemen. Bij robots is deze verbeeldingskracht belangrijk voor het voorspellen van toekomstige uitkomsten, bijvoorbeeld in de vorm van hoe de omgeving zal veranderen of hoe objecten zich zullen verplaatsen. Hiervoor worden geavanceerde technieken gebruikt, zoals Gaussiaanse processen, filtering en convolutionele LSTM’s (Long Short-Term Memory-netwerken), die in staat zijn om tijdsafhankelijke veranderingen in de omgeving te voorspellen. Dit is essentieel voor taken zoals objecttracking of manipulatie in dynamische omgevingen.

Een ander cruciaal aspect van robotbeslissingen betreft het afstemmen van robots op menselijke acties en intenties. Bij interactie met mensen moeten robots in staat zijn om te begrijpen of een mens zich op een pad bevindt dat hen zou kunnen kruisen. Dit vereist niet alleen perceptie van visuele en fysische signalen, zoals gezichtsuitdrukkingen of lichaamstaal, maar ook een begrip van de communicatie via taal. Taal en communicatie brengen echter onzekerheden met zich mee, zoals vertragingen, onduidelijkheden of onvoldoende informatie. Deze onzekerheid speelt een belangrijke rol in de manier waarop robots sociale interacties aangaan en de intenties van mensen of andere robots interpreteren.

Onzekerheid is bovendien een nuttig hulpmiddel bij het beoordelen van de prestaties van een model. In situaties waar een model onzeker is over een invoer, kan het ondermaats presteren. Het detecteren van zulke 'Out-of-Distribution' (OOD) monsters is essentieel voor het verbeteren van de robuustheid van robotsystemen, vooral in omgevingen die voortdurend veranderen, zoals autonome voertuigen of mobiele robots. Het gebruik van onzekerheidsmetingen kan robots helpen om beter aan te passen aan onbekende of veranderende situaties en zo hun prestaties te verbeteren in nieuwe omgevingen.

Daarnaast speelt onzekerheid een cruciale rol bij het plannen en besturen van robotgedrag. Wanneer een robotsysteem aparte modules heeft voor perceptie en besluitvorming, kan de onzekerheid die in de perceptiemodule wordt aangetroffen, worden doorgegeven aan de besluitvormingsmodule. Dit is belangrijk omdat beslissingen in dynamische omgevingen vaak afhankelijk zijn van perceptie, en onzekerheden in de waarnemingen kunnen de uitkomsten van de besluitvorming beïnvloeden. Het verwerken van onzekerheid kan bijvoorbeeld worden uitgevoerd met behulp van Monte Carlo-methoden of ensemblemethoden, waarbij meerdere mogelijke beslissingen worden geëvalueerd op basis van verschillende waarnemingen.

Het begrip van onzekerheid is ook belangrijk voor de verkenning van de omgeving, waar een robot onzekerheid kan gebruiken om te bepalen welke delen van een omgeving nog onbekend zijn. Dit is van toepassing op vele taken, van het in kaart brengen van binnenomgevingen tot het monitoren van milieugegevens met drones of het navigeren in ondergrondse of buitenaardse omgevingen. Het gebruik van probabilistische verkenningsstrategieën zoals Bayesian Optimization of Partially Observable Markov Decision Processes (POMDP) helpt robots om efficiënter te verkennen door gebieden met hogere onzekerheid te prioriteren en aanvullende informatie te verzamelen.

Verder is onzekerheid ook van cruciaal belang bij het leren van beleidsmaatregelen voor robotbeweging en taakplanning. Het leren van robuuste besluitvormingsstrategieën in onzekere omgevingen vereist geavanceerde technieken zoals reinforcement learning, waarbij robots leren van ervaringen en hun besluitvormingsprocessen voortdurend verbeteren. Door onzekerheid te integreren in het leerproces, kunnen robots beter omgaan met onvoorspelbare situaties en de efficiëntie van hun acties verbeteren.

Het begrijpen van de rol van onzekerheid in robottechnologieën is essentieel voor het verbeteren van de prestaties en robuustheid van autonome systemen. Onzekerheid is geen hinderlijk bijverschijnsel, maar een fundamenteel aspect van de manier waarop robots de wereld waarnemen, beslissingen nemen en met hun omgeving omgaan. Het vermogen om onzekerheid effectief te beheren, te voorspellen en te integreren in de besluitvorming zal bepalend zijn voor de toekomst van autonome technologieën, zoals zelfrijdende voertuigen en autonome robots.

Hoe kunnen gecertificeerde benaderingen en training bijdragen aan betrouwbare diepe leermodellen?

In de recente literatuur over gecertificeerde benaderingen in machine learning wordt een duidelijke trend waargenomen waarin modellen, vooral die gebaseerd op ReLU-activeringsfuncties, in toenemende mate worden geclassificeerd en geanalyseerd volgens hun certificeringscapaciteiten. Deze benaderingen kunnen grofweg worden onderverdeeld in twee hoofdtypen: zwartdoosmodellen, die vaak de grootste generaliseerbaarheid bieden, maar ten koste van de efficiëntie, en de wittere benaderingen die vaak strikter zijn maar mogelijk minder breed toepasbaar. De geanalyseerde certificeringsmethoden zijn meestal gericht op het verifiëren van specifieke eigenschappen, zoals de robuustheid van een model tegen kleine verstoringen in de invoer, wat essentieel is voor het waarborgen van de betrouwbaarheid in toepassingen zoals autonome systemen of medische diagnose.

De certificeringsbenaderingen die het meest worden onderzocht, zijn vaak gebaseerd op ReLU-netwerken, ook wel aangeduid als "ReLU Nets". Deze netwerken bieden robuuste oplossingen voor verschillende taken, maar de mate van "tightness" van hun voorspellingen hangt sterk af van de gebruikte methoden om de rekenkundige complexiteit te beperken. De grootste uitdaging ligt hierbij in het vinden van een balans tussen de generaliseerbaarheid van het model en de overhead die gepaard gaat met de noodzakelijke berekeningen. Zo blijkt uit recente studies dat benaderingen die gebruikmaken van zwartdoosmodellen aanzienlijk hogere overhead vereisen in termen van computationele kosten, maar ook robuustere en betrouwbaardere resultaten kunnen leveren.

In de tabel die de taxonomie van certificeringsbenaderingen weergeeft, wordt duidelijk dat de meeste benaderingen in de afgelopen vijf jaar zijn ontwikkeld, wat de snelheid van vooruitgang in dit vakgebied benadrukt. Dit toont de toenemende relevantie van gecertificeerde modellen in praktische toepassingen aan. De verschillende benaderingen zijn geclassificeerd op basis van hun kernmethodologie, zoals het gebruik van "branch-and-bound" (BaB) of gemengde gehele getallen programmering (MIP) voor een volledige certificering, die zeer effectief blijken te zijn bij het verhogen van de stabiliteit van ReLU-neuronen.

In contrast met certificeringsbenaderingen is de gecertificeerde training relatief eenvoudiger van opzet, hoewel het in de kern hetzelfde proces van gradient descent-gebaseerde optimalisatie volgt. Het belangrijkste verschil tussen deze benaderingen ligt in de manier waarop ze omgaan met data-augmentatie, voortraining, verliesberekeningen en regularisatie. Gecertificeerde trainingsbenaderingen gebruiken vaak regularisatie om de stabiliteit van neuronen in de netwerken te verbeteren, vooral wanneer men werkt met ReLU-gebaseerde netwerken. Deze regularisatie is van cruciaal belang om de prestaties van het model te verbeteren en tegelijkertijd te zorgen voor een stabiele en betrouwbare werking.

Er zijn verschillende soorten trainingbenaderingen die het verkrijgen van gecertificeerde modellen ondersteunen, afhankelijk van het gekozen certificeringsdoel. Zo wordt voor benaderingen op basis van Lipschitz- en kromtescertificering het gebruik van regelmatige termen aangeraden om grote Lipschitz- of kromtegrenzen expliciet te bestraffen, wat de robuustheid van het model vergroot. Dit sluit aan bij de bredere benaderingen van robuuste training, zoals adversariële training (AT), waarbij aanvallen worden gebruikt om de zwakste punten van een model te identificeren en te versterken.

De keuze tussen verschillende certificeringsmethoden, zoals lineaire relaxatie en relaxatie op basis van SDP (semidefinite programming), speelt ook een belangrijke rol bij het bepalen van de robuustheid en de rekenkundige efficiëntie van het model. De nauwkeurigheid van de grenzen die worden berekend, kan direct invloed hebben op de prestaties van het model tijdens het trainen en de uiteindelijke effectiviteit bij het omgaan met kleine verstoringen. De regularisatie- en relaxatiemethoden zijn vaak gericht op het minimaliseren van de afstand tussen de voorspellende output van het model en de werkelijke labels, wat het model sterker maakt in het omgaan met variaties in de invoer.

Een belangrijk punt dat verder benadrukt moet worden, is dat gecertificeerde training niet alleen gericht is op het verbeteren van de robuustheid van het model tegen specifieke verstoringen, maar ook het vergroten van de betrouwbaarheid van het model in dynamische en onvoorspelbare omgevingen. Dit maakt het niet alleen waardevol in situaties waarin veiligheid cruciaal is, maar ook in toepassingen zoals kunstmatige intelligentie in de gezondheidszorg, waar het vermogen van een model om correcte en betrouwbare beslissingen te nemen van levensbelang is. Het verbeteren van de interpretatie van de certificeringsresultaten en het implementeren van transparante mechanismen om de uitvoering van modellen in de praktijk te volgen, blijft een belangrijk aspect voor toekomstig onderzoek en ontwikkeling in dit vakgebied.

Hoe Randomized Smoothing de Robuustheid van Beeldclassificatie Kan Verzekeren

In recente jaren is er veel aandacht voor de verbetering van de robuustheid van kunstmatige intelligentie (AI) modellen, met name voor diepe neurale netwerken die kwetsbaar kunnen zijn voor zogenaamde adversarial attacks. Deze aanvallen proberen de modellen te misleiden door kleine, opzettelijke veranderingen aan de invoerdata aan te brengen, waardoor de prestaties van het model dramatisch verslechteren. Een van de methoden die recentelijk veelbelovend is gebleken in het verbeteren van de robuustheid tegen dergelijke aanvallen, is randomized smoothing.

Randomized smoothing is een techniek waarbij willekeurige ruis wordt toegevoegd aan de invoerbeelden om een 'geëvalueerde' output te genereren, wat resulteert in een gecertificeerde robuustheid tegen kleine verstoringen. Het idee is eenvoudig, maar krachtig: door de invoer meerdere keren te verstoren (door bijvoorbeeld willekeurige ruis toe te voegen) en vervolgens het gemiddelde van de uitkomsten van het model te nemen, kan het model op een robuustere manier leren en minder gevoelig worden voor kleine variaties in de data.

Wat randomized smoothing bijzonder maakt, is de mogelijkheid om formele garanties te bieden over de robuustheid van het model. Dit betekent dat we niet alleen kunnen zeggen dat een model robuust is tegen verstoringen, maar ook kunnen berekenen tot op zekere hoogte hoeveel verstoring het kan verdragen voordat de classificatie van het model faalt. Dit is van essentieel belang, vooral in toepassingen waarbij veiligheid en betrouwbaarheid cruciaal zijn, zoals in autonome voertuigen of medische diagnostische systemen.

In de praktijk is randomized smoothing vooral nuttig voor beeldclassificatie. Onderzoekers zoals Fischer et al. (2021) hebben aangetoond dat deze techniek kan worden opgeschaald voor gebruik in grote netwerken, waardoor een breed scala aan toepassingen kan profiteren van gecertificeerde robuustheid. Het effect van randomisatie op de prestaties van het model kan verder worden geoptimaliseerd door de introductie van variatie-reducerende technieken, die de impact van de toegevoegde ruis minimaliseren zonder afbreuk te doen aan de robuustheid (Horvath et al., 2022).

Er zijn echter enkele uitdagingen die nog moeten worden overwonnen. Een belangrijke beperking van randomized smoothing is dat het vaak leidt tot een verlies van modelnauwkeurigheid, aangezien de techniek de gegevens ruisgevoelig maakt. Dit compromis tussen robuustheid en nauwkeurigheid is een van de centrale vraagstukken in het veld van adversarial machine learning. Gelukkig werken onderzoekers aan manieren om deze uitdaging aan te pakken door het verbeteren van de methodes voor de ruisgeneratie of door het integreren van deze techniek met andere robuustheidsverhogende strategieën.

Een andere belangrijke overweging is de rol van de zogenaamde "certificaten" die geassocieerd worden met de robuustheid van een model. Certificaten zijn wiskundige garanties die bevestigen dat een model tegen een bepaald type verstoring bestand is. In veel gevallen kunnen de certificaten van randomized smoothing worden gebruikt om de betrouwbaarheid van een model te valideren voordat het in een productieomgeving wordt ingezet. Dit zorgt ervoor dat de implementatie van AI-systemen niet alleen theoretisch betrouwbaar is, maar ook praktisch kan worden vertrouwd.

Het concept van robuustheid kan verder worden uitgebreid naar andere domeinen van machine learning, zoals natuurlijke taalverwerking en reinforcement learning. Het idee om formele garanties te bieden voor de stabiliteit van modellen tegen adversarial manipulatietechnieken zou bijvoorbeeld kunnen worden toegepast op taalmodellen en op modellen die gebruikt worden in autonome systemen.

Voor de lezer is het cruciaal te begrijpen dat de robuustheid van AI-modellen niet slechts een technologische vooruitgang is, maar ook een noodzaak in de context van maatschappelijke acceptatie van AI. Naarmate AI meer wordt geïntegreerd in kritieke systemen, zal het waarborgen van de betrouwbaarheid en veiligheid van deze systemen essentieel zijn om menselijke levens te beschermen en vertrouwen in AI te behouden. Het vermogen om formele garanties te bieden via technieken zoals randomized smoothing zou wel eens een sleutelfactor kunnen zijn in het succes van AI in de toekomst.

Hoe kan de robuustheid van neurale netwerken tegen adversariële aanvallen worden gegarandeerd?

De robuustheid van neurale netwerken tegenover adversariële aanvallen is een centraal vraagstuk binnen het veld van machine learning en computer vision. Diverse benaderingen en technieken zijn ontwikkeld om te waarborgen dat een model niet alleen nauwkeurig presteert op normale data, maar ook bestand is tegen kleine, doelbewuste verstoringen die bedoeld zijn om het model te misleiden. Een belangrijk aspect hierbij is het certificeren van deze robuustheid, dat wil zeggen het formeel bewijzen dat een netwerk bestand is tegen bepaalde soorten aanvallen binnen vooraf gedefinieerde grenzen.

Een veelgebruikte techniek is het toepassen van Lipschitz-beperkingen binnen convolutionele netwerken, wat helpt om gradientverzwakking tegen te gaan en zo stabiliteit te waarborgen (Jacobsen, 2019). Daarnaast zijn er methodes zoals PointGuard (Liu et al., 2021) die specifiek gericht zijn op robuuste classificatie van 3D-puntenwolken, waarbij de onderliggende structuur van de data wordt benut om aanvallen te detecteren en af te weren.

Verificatie van neurale netwerken wordt vaak gerealiseerd door reachability analysis, waarbij men onderzoekt welke outputs een netwerk kan produceren op basis van een gegeven inputverzameling, wat helpt om veiligheidsgrenzen te bepalen (Lomuscio & Maganti, 2017). Hierbij spelen geavanceerde technieken als semidefiniete programmering en polyhedrale relaxaties een grote rol om deze analyse schaalbaar en accuraat uit te voeren (Raghunathan et al., 2018; Ryou et al., 2021).

Een andere benadering bestaat uit randomized smoothing, een probabilistische methode die garanties biedt over de robuustheid door het toevoegen van gecontroleerde ruis aan de input en het analyseren van het gedrag van het netwerk onder deze ruis (Mohapatra et al., 2020; Salman et al., 2019b). Deze techniek is bijzonder effectief gebleken bij het certificeren van modellen voor visuele taken, waaronder recente toepassingen in vision transformers (Salman et al., 2022).

De combinatie van formele verificatietechnieken met trainingstechnieken die expliciet rekening houden met adversariële voorbeelden, zoals adversarial training (Madry et al., 2018), leidt tot modellen die niet alleen theoretisch robuust zijn, maar dit ook in praktijk aantonen. Differentiable abstract interpretation en hogere-orde certificaten helpen bij het versterken van deze garanties door een fijnmazigere analyse mogelijk te maken, waarbij het netwerk wordt gemodelleerd als een abstractie die zijn gedrag betrouwbaar kan voorspellen onder variaties in input (Mirman et al., 2018; Mohapatra et al., 2020).

Het is cruciaal te begrijpen dat robuustheid niet alleen een kwestie is van bescherming tegen individuele kleine verstoringen, maar ook het vermogen omvat om te generaliseren naar onverwachte, buiten-distributie data en semantische veranderingen (Shen et al., 2021). Dit vraagt om een integrale aanpak waarin certificatie, training, en modelarchitectuur in samenhang worden geoptimaliseerd.

De complexiteit van deze methoden vereist diepgaande kennis van wiskundige optimalisatie, abstracte interpretatie en probabilistische modellering. De vooruitgang op dit gebied heeft niet alleen impact op de veiligheid van AI-systemen in kritieke toepassingen, maar ook op het vertrouwen dat gebruikers kunnen hebben in automatische besluitvorming.

Het is belangrijk te beseffen dat certificering altijd plaatsvindt binnen bepaalde aannames over het type en de omvang van mogelijke aanvallen. Bovendien is het een continu proces waarin methoden worden verfijnd en gecombineerd om de praktische toepasbaarheid en schaalbaarheid te verbeteren. Dit betekent dat robuustheid in neurale netwerken niet een statisch eindpunt is, maar een dynamisch onderzoeksgebied dat zich blijft ontwikkelen naarmate nieuwe bedreigingen en inzichten ontstaan.

Hoe kunnen we taalmodellen koppelen aan fysieke wetmatigheden via simulaties?

Het is duidelijk geworden dat de huidige grote taalmodellen (LLM’s) moeite hebben met taken waarbij interactie met objecten in een fysieke omgeving vereist is. Om deze uitdaging aan te pakken, stellen we een methode voor waarbij we objecten onder interactie verkennen om zo tot een oplossing te komen. Het technische probleem hierbij is om de grammaticale generatiecapaciteiten van LLM’s te behouden, terwijl tegelijkertijd rekening wordt gehouden met de dynamiek van de omgeving en de objecteigenschappen. We kunnen deze situatie zien als een distillatieprobleem van kennis, waarbij kennis over objectclassificatie over beelden en trajectgegevens in een LLM moet worden overgedragen. Zelfs een relatief klein LLM, zoals LLaVA-7B, is aanzienlijk groter dan een objectclassificatiemodel, zoals de modellen die we tot nu toe in dit onderzoek hebben gebruikt. Een standaard soft logit-distributie over objectklassen is waarschijnlijk niet voldoende om informatie te verstrekken voor een generatief LLM met duizenden mogelijke tokenuitvoer.

Daarnaast is er een aanzienlijke mismatch in de distributie tussen het autoregressieve taalmodel en de modellen waarin we de benodigde informatie willen coderen, zoals de relaties tussen objecten, hun eigenschappen en de acties die ze kunnen uitvoeren. Deze informatie is vaak ingebed in kennisdatabases of modellingsystemen zoals VoxML, die eerst in een subsymbolische vorm moeten worden omgezet en daarna in overeenstemming moeten worden gebracht met de distributie van het generatieve LLM. Om dit probleem te overbruggen, stellen we voor om de informatie uit een simulatieomgeving te gebruiken. In zo'n omgeving kennen we de locatie en omvang van verschillende objecten in de ruimte, evenals de camerapositie van waaruit beelden worden vastgelegd. Deze informatie wordt uitgedrukt in Cartesiaanse coördinaten en een quaternion voor rotaties, die samen worden gecomprimeerd in een enkele 4x4 transformatiesmatrix.

Het idee is om de objectlocaties vanuit de 3D-ruimte in de pixelruimte te projecteren, zodat we patches in de afbeeldingen kunnen identificeren waarop we aandacht moeten richten om het juiste object uit de afbeelding te extraheren. De ruimtelijke trajectgegevens en hun lokalisatie in pixelruimte (zoals begrenzingsboxen), samen met de beelden, zouden worden doorgegeven aan een transformer-encoder. Zelf-aandacht zou worden getraind om objecten in de afbeelding te detecteren, met een extra lokalisatiesignaal voor objecten uit de begrenzingsboxen waaraan een objectlabel is gekoppeld. Het aandachtmechanisme zou moeten zorgen voor een correcte afstemming van de tokens in de output, die betrekking hebben op objectgerelateerde eigenschappen of acties.

Een eerder onderzoek heeft al aangetoond dat het grondvesten van objecttermen uit een taalmodel in objecten van een trajectgebaseerde classifier ons waardevolle informatie oplevert, zoals de relatie tussen termen zoals "plat" en "stapel", die vervolgens automatisch kunnen worden gekoppeld aan de juiste objecten. Het idee is om de ruwe objectbewegingen of visuele kenmerken zelf-superviserend door een encoder te coderen, zodat we correlaties in objectkenmerken kunnen ontdekken die belangrijk zijn voor objectherkenning. Bijvoorbeeld, de belangrijkste as van een cilinder, zoals gecodeerd in VoxML, blijkt sterk gecorreleerd te zijn met de "stapelbaarheid" of de vlakke oppervlakte in een bepaalde oriëntatie en het gebrek aan die mogelijkheid in een andere.

Deze informatie is impliciet gecodeerd in de objecttrajectgegevens uit de simulatie en we willen het taalmodel in staat stellen om deze correlaties tussen objectkenmerken en taakgerelateerde tokens te leren. De supervisie kan worden aangestuurd door de aandachtshoofden over de objectcoderingen naar de taalmodellen. Door het gebruik van een verliesfunctie die de Euclidische afstand minimaliseert tussen de aandacht van object- en taalmodellen, wordt het model geoptimaliseerd om aandacht te geven aan relevante gedragingen zoals "stapel" wanneer een cilinder verticaal staat of "rollen" wanneer deze horizontaal ligt.

Een ander belangrijk aspect van de methode is het gebruik van een voorkeurmodel dat door contrastieve training in de context van fysiek redeneren wordt gevoed. Dit maakt het mogelijk om "goede" en "slechte" reacties te identificeren, waarbij een "goede" reactie resulteert in stabiele configuraties, terwijl een "slechte" reactie leidt tot onlogische of instabiele configuraties. In plaats van afhankelijk te zijn van menselijke feedback of langzame menselijke beoordeling, kan het systeem zichzelf snel verbeteren door deze simulaties, die directe en fysiek verantwoorde antwoorden opleveren.

Het voorkeurmodel wordt verder getraind met behulp van de som van verschillende verliesfuncties, waaronder contrastverlies, aandachtverlies en embedderverlies. Deze functies zijn gewogen om het model te optimaliseren over een validatieset. Het proces maakt gebruik van technieken zoals Proximal Policy Optimization (PPO) voor de uiteindelijke training van het LLM. Echter, het uitvoeren van deze simulaties op grote schaal vergt aanzienlijke rekenkracht, vooral wanneer de scenario’s complexer worden. Daarom kunnen de representaties van acties vanuit het voorlaatste netwerk van het beleidsmodel worden gekoppeld aan specifieke locaties in de representatieruimte die gebruikt wordt voor de identificatie van affordances in de taak.

Naast de methoden die we tot nu toe hebben beschreven, is het belangrijk voor de lezer te begrijpen dat de simulatieomgeving, waarin de fysieke wetmatigheden strikt gevolgd worden, de sleutel is tot de effectiviteit van deze benadering. Door nauwkeurige controle over objectinteracties en hun fysische eigenschappen kunnen taalmodellen zich niet alleen beter aanpassen aan de realiteit van objectgedrag, maar ook leren te reageren op fysiek verantwoorde manieren. Het idee van “natuurlijke” simulaties, waarbij de juiste objectinteracties automatisch worden aangestuurd, biedt een krachtige manier om taalmodellen te verbeteren zonder te veel afhankelijk te zijn van handmatige annotatie of intensieve menselijke evaluatie.