Thermistors, die vaak worden gebruikt om de temperatuur van objecten te meten, vertonen een niet-lineaire relatie tussen hun weerstand en de gemeten temperatuur. Deze niet-lineaire relatie wordt normaal gecorrigeerd door een kalibratie, waarbij ten minste drie metingen van de weerstand bij bekende temperaturen worden verzameld. De kalibratiewaarden worden vervolgens gefit met de Steinhart-Hart (SH) vergelijking, die de relatie tussen weerstand en temperatuur beschrijft. Deze vergelijking wordt gebruikt als het grondwaarheidsmodel om de temperatuur op basis van de weerstand te voorspellen. Voor dit specifieke voorbeeld gebruiken we het SH-model als de basis voor ons model om te trainen, waarbij de weerstand als invoer dient.

De SH-modelparameters worden weergegeven in Tabel 9.1, die de waarden voor Ka, Kb, en Kc definieert. Het thermistormodel gaat ervan uit dat de weerstand van de sensor zich tussen de 100 en 15.000 Ohm bevindt. Door de weerstand van de trainingsdata te beperken, kunnen we ook gevallen onderzoeken waarin de meting buiten de verdeling valt (OOD). Verschillende soorten ruis worden toegevoegd aan het grondwaarheidsmodel om de trainings- en testdatasets te genereren. Het resultaat is een netwerk dat het temperatuurvoorspellen op basis van weerstand leert.

Er worden twee basismodellen ontwikkeld om de mapping tussen weerstand en temperatuur te leren: deterministisch en stochastisch. Het deterministische netwerk heeft als verwachting dat de epistemische onzekerheid nul is, aangezien de voorspelling uitsluitend afhankelijk is van een vast aantal modelparameters. Hierdoor is de onzekerheid in de voorspelling gelijk aan de aleatorische onzekerheid. Het stochastische netwerk bevat daarentegen willekeurigheid in de modelparameters, zodat de voorspelling niet afhankelijk is van een vaste set gewichten. Dit betekent dat de epistemische onzekerheid groter is. De basisstructuur van het deterministische netwerk bestaat uit lineaire lagen met ReLU-activering in de interne lagen. Het stochastische netwerk is op dezelfde manier opgebouwd, maar bevat bovendien een dropout-laag aan het eind van de ReLU-lagen. Deze dropout-laag is actief tijdens zowel de training als de inferentie om stochastische output te genereren.

Meta-modellen worden vervolgens getraind om de parameters van een normale verdeling te voorspellen. De resultaten laten zien dat de Meta-modellen de werkelijke variantie met minder dan 7% fout voorspellen. Het deterministische netwerk bevestigt dat het Meta-model een nulwaarde voor de epistemische onzekerheid voorspelt. In het geval van het stochastische netwerk blijkt dat het Meta-model ook de epistemische onzekerheid nauwkeurig vastlegt. Dit voorbeeld toont aan hoe ons systeem in staat is om verschillende onzekerheidsbronnen te onderscheiden en nauwkeurige onzekerheidsinschattingen te leveren.

Een tweede experiment werd uitgevoerd op de real-world autonome voertuigendataset, KITTI. In real-world gegevens is de grondwaarheidsonzekerheid meestal niet bekend. Daarom wordt de nauwkeurigheid van onze onzekerheidsinschatting indirect geëvalueerd door de prestaties van een taak te volgen die de onzekerheid gebruikt. De taak in dit experiment is pose-estimatie, die wordt uitgevoerd door gegevens van het inertiële meetsysteem (IMU) te combineren met LIDAR-metingen. Het vooraf getrainde LoRCoN-LO netwerk wordt gebruikt om de relatieve 6D-pose van het voertuig te voorspellen uit opeenvolgende LIDAR-metingen.

In dit experiment vergelijken we drie gevallen. Eerst bekijken we de IMU-gegevens alleen, om de basisprestaties zonder LIDAR te bepalen. Vervolgens combineren we de LIDAR-gegevens met de IMU-gegevens door een statische covariantie te berekenen op basis van de LIDAR-posevoorspelfout. In het derde geval combineren we de IMU- en LIDAR-gegevens, maar gebruiken we de Meta-modelvoorspelling van de covariantie bij elke meetupdate. De resultaten worden vergeleken aan de hand van posmetriekwaarden zoals de gemiddelde trajectfout (ATE), de relatieve translatiefout (RPTE) en de relatieve rotatiefout (RPRE).

De resultaten laten zien dat de IMU alleen veel ruis bevat en aanzienlijk afdrijft. Dit is te verwachten omdat er geen GPS-metingen worden gebruikt om de drift te corrigeren. Het gebruik van LIDAR met statische covariantie vermindert de drift aanzienlijk, maar de afdwaling blijft significant. Het gebruik van de Meta-modelfusion kan de drift verder verminderen en de nauwkeurigheid van de trajectvoorspellingen aanzienlijk verbeteren.

Wat belangrijk is, is dat deze experimenten aantonen hoe onzekerheidskwantificatie cruciaal is voor het verbeteren van de prestaties van metacognitieve systemen. Door onzekerheid op een betrouwbare manier te schatten, kan een systeem effectiever leren van zowel de gegevens als de onzekerheid in die gegevens. Dit is van essentieel belang voor toepassingen in autonome systemen, zoals zelfrijdende voertuigen, waar betrouwbare onzekerheidsinschattingen essentieel zijn voor veiligheid en prestaties.

Daarnaast laat dit onderzoek zien hoe een agent met een nauwkeurige inschatting van zijn onzekerheid de juiste beslissingen kan nemen, zelfs in situaties waar de informatie onvolledig of onbetrouwbaar is. Het proces van het onderscheiden van verschillende onzekerheidsbronnen maakt het mogelijk om efficiënter met beperkte data om te gaan en tegelijkertijd de beslissingen van de agent te optimaliseren.

Hoe beïnvloedt onzekerheid de besluitvorming en perceptie in autonome systemen?

Onzekerheid speelt een fundamentele rol in de ontwikkeling en het functioneren van autonome systemen, vooral in robotica en zelfrijdende voertuigen. Het omgaan met onzekerheid is niet slechts een bijkomstigheid, maar een essentiële vereiste voor betrouwbare en veilige besluitvorming. In complexe en dynamische omgevingen waar volledige informatie zelden beschikbaar is, dwingt onzekerheid systemen om probabilistische modellen te hanteren, waarin kansen en onzekerheidsmarges expliciet worden gemodelleerd en geanalyseerd.

Een centrale uitdaging is het representeren en verwerken van onzekerheden die voortkomen uit sensorische waarnemingen en de dynamiek van de omgeving. Hierbij spelen technieken zoals Bayesian inference en probabilistische filters—waaronder de Kalman-filter—een cruciale rol. Deze methoden maken het mogelijk om onzekerheden te kwantificeren en te integreren in het besluitvormingsproces. Tegelijkertijd zijn geavanceerde benaderingen zoals conformal prediction en out-of-distribution detectie in opkomst, die expliciete statistische garanties bieden over de betrouwbaarheid van detecties en voorspellingen. Dit is van vitaal belang in scenario’s waar het systeem geconfronteerd wordt met ongekende of afwijkende situaties buiten de trainingsdata.

Bij autonome voertuigen, bijvoorbeeld, zijn fouten in perceptie vaak fataal; zo blijkt uit incidenten waarbij zelfrijdende auto’s moeite hebben met het correct herkennen van onverwachte objecten zoals kangoeroes. Dit illustreert de noodzaak van robuuste perceptiemodellen die niet alleen accuraat zijn binnen bekende distributies, maar ook waarschuwen wanneer data significant afwijkt van het verwachte. Stress-testing van perceptiesystemen wordt daarmee een onmisbare stap om de grenzen van huidige technologie te onderzoeken en verbeteren.

In het domein van robotmanipulatie neemt het belang van taakgerichte exploratie toe, waarbij het systeem niet alleen passief observeert maar actief informatie verzamelt om onzekerheden te verkleinen en betere beslissingen te nemen. Continue Partially Observable Markov Decision Processes (POMDPs) worden hier gebruikt om een mathematisch kader te bieden waarin onzekerheid en onvolledige observaties systematisch worden gemodelleerd, wat leidt tot effectievere controle en planning.

Daarnaast dragen methoden uit reinforcement learning bij aan het verbeteren van adaptieve strategieën, waarbij het systeem leert door interactie met de omgeving, ook onder onzekerheid. Dit proces wordt versterkt door technieken zoals deep ensembles en Bayesian benaderingen, die de diversiteit van voorspellingen vergroten en daarmee betrouwbaarheid en robuustheid van het model versterken.

Voor een diepgaander begrip van deze materie is het cruciaal om niet alleen de gebruikte algoritmes te bestuderen, maar ook de onderliggende aannames en beperkingen ervan. Zo kunnen onzekerheidsmodellen sterk variëren in hoe zij omgaan met onbekende of onvolledige data, en de mate waarin ze risico’s kunnen inschatten. Begrip van de verschillen tussen epistemische onzekerheid (onwetendheid door gebrek aan kennis) en aleatorische onzekerheid (intrinsieke variabiliteit in data) is essentieel voor het correct interpreteren van de resultaten en het ontwerpen van systemen die adequaat kunnen reageren op onverwachte situaties.

Ook is het belangrijk te beseffen dat probabilistische garanties en statistische zekerheid altijd afhangen van het gekozen model en de kwaliteit van data. Onjuiste aannames of overschatting van zekerheid kunnen leiden tot gevaarlijke beslissingen, wat het belang van continue validatie, kalibratie en risicomanagement onderstreept. Systemen moeten daarom niet alleen leren en generaliseren, maar ook hun eigen onzekerheid kunnen kwantificeren en communiceren, wat essentieel is voor vertrouwen en samenwerking met menselijke gebruikers.

Hoe kan men de betrouwbaarheid en eerlijkheid van diepe leermodellen waarborgen?

In het domein van diep leren (DL) worden systemen vaak blootgesteld aan verschillende vormen van risico's, zoals manipulatie van datasets, bias in de distributie van gegevens, numerieke fouten tijdens de uitvoering, en onzekerheid over de robuustheid van de modellen. Het waarborgen van de betrouwbaarheid en eerlijkheid van deze systemen vereist diepgaande certificering en betrouwbare benaderingen, die moeten worden afgewogen tegen de complexiteit van de taak en de schaal van de betrokken gegevens.

Een belangrijke bedreiging is de mogelijkheid dat een adversaire de trainingsdataset verstoort. In dit scenario kan elke traject r, bestaande uit meerdere overgangen van toestanden, acties, beloningen en volgende toestanden, worden vervangen door een nieuwe manipulatieve versie. Het resultaat hiervan is een gemanipuleerde dataset die qua samenstelling verschilt van de oorspronkelijke. Deze veranderingen kunnen worden gekarakteriseerd door de symmetrische verschil van twee datasets, D en De, waarbij het toevoegen of verwijderen van een traject een verschil van grootte 1 oplevert en het vervangen van een traject door een ander leidt tot een verschil van grootte 2. Dit vormt een specifiek model van bedreigingen, waarbij manipulaties binnen een dataset leiden tot afwijkingen in het modelgedrag.

Naast de integriteit van de gegevens speelt de verdeling van de prestaties van het model over verschillende groepen een cruciale rol in de beoordeling van de eerlijkheid. Het is van belang dat een model niet bevooroordeeld is ten opzichte van bepaalde beschermde of gevoelige attributen, zoals geslacht of etniciteit. In een ideale situatie zou het model presteren op een manier die de eerlijke verdeling van gegevens weerspiegelt. Wanneer het model echter afwijkingen vertoont van deze eerlijke verdeling, kan dit leiden tot oneerlijke resultaten die de prestaties van specifieke groepen negatief beïnvloeden. In dit geval kan het model een aanzienlijke bias vertonen, of juist een slechte prestatie leveren op de oorspronkelijke trainingsverdeling. De uitdaging is om een model te ontwikkelen dat goed presteert in een eerlijke distributie en een lage verlieswaarde heeft wanneer de verdeling zelf eerlijk is.

Numerieke betrouwbaarheid is eveneens een belangrijk aspect van de robuustheid van DL-systemen. Wanneer een model in een productieomgeving werkt, kunnen numerieke fouten zoals NaN (Not a Number) of INF (oneindig) het model in een crash doen eindigen. Deze fouten ontstaan meestal wanneer een operator in het DL-systeem een ongeldig invoer ontvangt, bijvoorbeeld wanneer een logaritmische operator een negatieve waarde probeert te verwerken. Het voorkomen van dergelijke fouten vereist dat het systeem wordt gecertificeerd voor alle geldige invoerwaarden en gewichten. Dit wordt bereikt door te waarborgen dat de invoer altijd binnen de geldige domeinen valt, bijvoorbeeld voor beeldmodellen die een invoer van het domein [0, 1]^d vereisen.

Wat betreft de certificering van betrouwbare DL-systemen, wordt er vaak gesproken over een classificatie van benaderingen op basis van verschillende kenmerken. Efficiëntie is hierbij een sleutelcriterium, waarbij de tijdcomplexiteit van de certificering in relatie tot de modelgrootte wordt gemeten. Een efficiënte certificering kan worden toegepast op grotere modellen, wat essentieel is voor de schaalbaarheid van het systeem. De efficiëntie wordt gekwantificeerd door twee metrics: de grootste dataset die gecertificeerd kan worden en de tijdcomplexiteit van het certificeren van een willekeurige invoer. Certificeringsbenaderingen moeten dus niet alleen werken voor kleinere datasets zoals MNIST, maar ook voor grotere zoals ImageNet, waarbij een hogere schaalbaarheid vereist is.

Naast efficiëntie is de nauwkeurigheid van de certificering belangrijk. Een certificeringsmethode moet niet alleen een juist resultaat opleveren, maar ook zo nauwkeurig mogelijk zijn in het identificeren van onbetrouwbare modellen. De mate van striktheid wordt gemeten op een schaal van “compleet” (waarbij een onbetrouwbaar resultaat zeker betekent dat het model onbetrouwbaar is) tot benaderingen die incompleet zijn en dus een zekere kans op onjuiste claims hebben.

In de praktijk wordt de betrouwbaarheid van een DL-systeem vaak getoetst aan de hand van de benodigde inspanning voor inference. Sommige certificeringsbenaderingen vereisen aangepaste inferenceprocedures die veel meer rekenkracht vereisen, bijvoorbeeld door ruis aan de invoer toe te voegen of meerderheidsstemmen toe te passen. Dergelijke benaderingen kunnen echter leiden tot extra overhead, wat problematisch is voor toepassingen die real-time reacties vereisen.

Een ander belangrijk aspect van certificering is de generaliseerbaarheid. Sommige benaderingen kunnen worden toegepast zonder kennis van het model zelf, wat ze geschikt maakt voor black-box scenario's. Andere benaderingen vereisen gedetailleerde kennis van het model en zijn daarom white-box benaderingen. Dit verschil heeft grote implicaties voor de manier waarop certificering wordt uitgevoerd en welke benaderingen het beste geschikt zijn voor specifieke toepassingen.

Bij het ontwikkelen van benaderingen voor betrouwbare certificering moet er altijd een afweging worden gemaakt tussen efficiëntie, nauwkeurigheid, en de overhead die met inference gepaard gaat. Er zijn geen perfecte oplossingen, maar het balanceren van deze factoren is cruciaal voor de lange-termijn toepasbaarheid en effectiviteit van diepe leermodellen in echte toepassingen.

Hoe kan metacognitie helpen bij het omgaan met falen in AI-systemen?

Metacognitie, het vermogen om na te denken over eigen gedachten en het bewustzijn van de eigen denkprocessen, speelt een cruciale rol in de ontwikkeling van AI-systemen die in staat zijn om adequaat te reageren op onvoorziene of onvoorspelbare omstandigheden. Dit concept, hoewel al geruime tijd bekend, krijgt tegenwoordig steeds meer aandacht in de context van kunstmatige intelligentie (AI), vooral in systemen die in dynamische omgevingen functioneren.

In veel gevallen blijkt de traditionele benadering van AI, waarin algoritmen met vooraf gedefinieerde modellen en regels werken, onvoldoende om om te gaan met complexiteit en onzekerheid die inherent is aan de echte wereld. De interactie tussen AI-agenten en hun omgeving vereist namelijk meer flexibiliteit dan standaard benaderingen kunnen bieden. Hier komt metacognitie in beeld, aangezien het AI-systemen in staat stelt zichzelf in twijfel te trekken, zich bewust te worden van tekortkomingen in hun modellen en vervolgens op basis van die zelfreflectie alternatieve oplossingen te zoeken. Dit proces biedt niet alleen een manier om falen te herkennen, maar ook om dat falen te gebruiken als leermoment om het systeem beter af te stemmen op de omgeving en de taken die het moet uitvoeren.

Bijvoorbeeld, als een AI-systeem een complexe taak uitvoert, zoals het opvolgen van lange instructies, kan zelfs een klein foutje in de uitvoering leiden tot een ongeschikte of onvoorziene situatie. Traditionele AI-systemen zouden eenvoudigweg doorgaan met hun taken zonder te reflecteren op de oorzaak van het falen. Metacognitie maakt het echter mogelijk om dit falen niet alleen te erkennen, maar ook te begrijpen waarom het is opgetreden en hoe het opgelost kan worden. Dit zelfbewustzijn stelt het systeem in staat om zich aan te passen en de taak op een effectievere manier voort te zetten.

In deze context kan metacognitie bijvoorbeeld geactiveerd worden door een mislukte output van een groot taalmodel (LLM), zoals GPT-4. Deze systemen zijn in staat indrukwekkende prestaties te leveren op gestandaardiseerde taken, maar blijven vaak moeite hebben met fysiek redeneren en het begrijpen van basale natuurwetten. Een voorbeeld hiervan is het feit dat LLMs soms moeite hebben met het begrijpen van de eigenschap van eenvoudige objecten, zoals het ronde karakter van een bal. Dit is niet noodzakelijk te wijten aan een gebrek aan gegevens, maar eerder aan het feit dat de kennis die in zulke modellen is opgeslagen vaak atomair is en moeilijk te verbinden valt voor complexere redenaties.

Metacognitie stelt een AI-systeem in staat om niet alleen de direct beschikbare kennis te gebruiken, maar ook om nieuwe inzichten te verwerven door interactie met de fysieke omgeving. Dit kan helpen om de concepten van objectherkenning en classificatie verder te verfijnen, vooral in gevallen waar de agent geconfronteerd wordt met objecten of omstandigheden die buiten de training vallen. Door deze interacties als triggers voor metacognitieve processen te gebruiken, kan een systeem zijn eerdere tekortkomingen corrigeren en zijn capaciteiten uitbreiden.

Het ontwikkelen van AI die gebruik maakt van metacognitie heeft belangrijke implicaties voor zowel de theorie als de praktijk van machine learning. De uitdaging ligt echter in het vaststellen hoe dergelijke metacognitieve processen effectief geïmplementeerd kunnen worden in systemen die in de echte wereld functioneren. Dit vereist niet alleen geavanceerde technieken voor objectherkenning en classificatie, maar ook een diepgaand begrip van hoe AI-agenten kunnen leren van fouten en hoe ze kennis kunnen gebruiken om zich aan te passen aan nieuwe situaties.

Naast de traditionele benaderingen van kennisoverdracht en multi-task learning, wordt metacognitie steeds relevanter in het kader van AI-onderzoek. Systemen die in staat zijn om na te denken over hun eigen beperkingen en falen, zullen niet alleen flexibeler zijn in het omgaan met nieuwe taken, maar zullen ook beter kunnen inspelen op de onvoorspelbare aard van de echte wereld. In plaats van vast te houden aan vooraf gedefinieerde regels, kunnen dergelijke systemen zich aanpassen aan onvoorziene omstandigheden, waardoor ze beter in staat zijn om taken te voltooien die anders misschien buiten hun bereik zouden liggen.

Het integreren van metacognitieve processen in AI-systemen kan ook leiden tot innovaties in de manier waarop we denken over objectherkenning en classificatie. Waar traditionele benaderingen vaak afhankelijk zijn van vastgestelde gegevens en modellen, kan metacognitie de deur openen naar meer dynamische vormen van leren. Wanneer een systeem bijvoorbeeld geconfronteerd wordt met een nieuw object dat het nog niet eerder heeft gezien, kan het niet alleen proberen het object te herkennen op basis van de bestaande kennis, maar ook actief experimenteren met het object om nieuwe informatie te vergaren die zijn begrip van het object uitbreidt.

Het idee dat falen een krachtig leermiddel kan zijn, is een van de fundamenten van metacognitief denken. Dit geldt niet alleen voor AI-systemen, maar ook voor de bredere context van machine learning. AI-agenten die in staat zijn om hun fouten te begrijpen en vervolgens hun modellen aan te passen, zullen uiteindelijk in staat zijn om taken effectiever en efficiënter uit te voeren. Dit is niet alleen een stap vooruit in de ontwikkeling van AI, maar ook een verschuiving in de manier waarop we nadenken over intelligentie zelf. Het gebruik van falen als een middel om te groeien en te verbeteren, is een essentieel aspect van het creëren van flexibele, adaptieve AI-systemen die in staat zijn om de uitdagingen van de echte wereld aan te gaan.