De classificatie van bewegingsgegevens, vastgelegd als tijdgestempelde GPS-trajecten, speelt een cruciale rol in diverse domeinen zoals transportplanning, analyse van reismotivaties en beveiligingstoepassingen. Moderne methoden voor het oplossen van dit classificatieprobleem vertrouwen hoofdzakelijk op supervised neural networks, die state-of-the-art prestaties leveren. Echter, deze modellen stuiten op fundamentele beperkingen wanneer ze worden ingezet in omgevingen die significant afwijken van de data waarop ze getraind zijn. Denk aan nieuwe geografische regio’s, veranderende infrastructuren of andere socio-culturele dynamieken waarbij er geen of nauwelijks gelabelde data beschikbaar is om het model opnieuw te trainen.

Om deze kloof te dichten, is een hybride benadering ontwikkeld die traditionele neurale netwerken combineert met een neurosymbolisch regelgebaseerd raamwerk gericht op foutdetectie en correctie (Error Detection and Correction Rules, EDCR). Dit systeem is erop gericht fouten in voorspellingen te identificeren en te corrigeren zonder de noodzaak voor hertraining van het onderliggende

Wat beïnvloedt de nauwkeurigheid van ChatGPT bij het oplossen van wiskundige problemen?

In recente studies naar de prestaties van ChatGPT bij het oplossen van wiskundige werkproblemen (MWP's), is gebleken dat het tonen van werk de kans op fouten aanzienlijk vermindert. Uit de verzamelde gegevens blijkt dat de waarschijnlijkheid van een foutafdruk (wanneer ChatGPT een verkeerd antwoord geeft) in sterke mate afhankelijk is van het aantal vermenigvuldigings- en delingsbewerkingen die de chatbot uitvoert, met een bijzonder sterke lineaire relatie wanneer het werk wordt getoond. In dit hoofdstuk wordt ingegaan op de factoren die de prestaties van ChatGPT beïnvloeden, met bijzondere aandacht voor de rol van verschillende wiskundige operaties.

De DRAW-1K dataset, die 1000 verschillende MWP's bevat, biedt gedetailleerde informatie over de antwoorden die ChatGPT gaf, die vervolgens geclassificeerd werden in vier hoofdtypen: (i) alle antwoorden correct, (ii) enkele antwoorden correct, maar niet allemaal, (iii) “geen oplossing” (wat altijd onjuist bleek), en (iv) geen enkele correct. In de experimenten van februari werd een aanzienlijke toename van de nauwkeurigheid waargenomen wanneer ChatGPT zijn werk toonde, hoewel de foutpercentages drastisch stegen wanneer het werk niet werd gepresenteerd. Bij de resultaten waar het werk werd getoond, was het foutpercentage aanzienlijk lager en was de nauwkeurigheid gelijk aan de moderne state-of-the-art modellen zoals EPT (met 59% nauwkeurigheid), terwijl ChatGPT in staat was om 51% van de antwoorden correct of afgerond correct te geven, en tot 80% als gedeeltelijk correcte antwoorden werden meegeteld.

In de experimenten bleek dat er specifieke factoren waren die de kans op een fout beïnvloedden. Bijzonder opvallend was de ontdekking dat het aantal onbekenden in de wiskundige problemen weinig effect had op de foutkans, in tegenstelling tot het aantal vermenigvuldigings- en delingsbewerkingen. De lineaire relatie tussen het aantal van deze operaties en de kans op fouten was opvallend sterk, met een R2 van 0.802 wanneer het werk werd getoond. Dit suggereert dat het tonen van werk ChatGPT in staat stelt om beter te presteren bij complexere wiskundige problemen, waarin vermenigvuldigingen en delingen een sleutelrol spelen. Dit biedt waardevolle inzichten voor verdere verbetering van de algoritmes die ChatGPT aandrijven.

Daarnaast werd ook een duidelijke relatie tussen het aantal optellingen en aftrekkingen en de foutkans waargenomen, waarbij de waarschijnlijkheid van een fout steeg naarmate het aantal van deze bewerkingen toenam. Dit patroon werd sterker wanneer ChatGPT zijn werk liet zien, met R2-waarden van respectievelijk 0.821 voor januari, 0.870 voor februari zonder het tonen van werk, en 0.915 voor februari met werk. De bevindingen wijzen erop dat meerstapsredenering, waarbij verschillende wiskundige operaties gecombineerd moeten worden, ChatGPT uitdaagt, vooral als het werk niet zichtbaar wordt gepresenteerd. Dit probleem wordt vaak genoemd in studies over het falen van grote taalmodellen bij complexe redeneringstaken.

Naast de analyse van de factoren die de prestaties beïnvloeden, werd er onderzocht of de prestaties van ChatGPT kunnen worden voorspeld op basis van het aantal operaties en de structuur van de wiskundige problemen. Het bleek dat het gebruik van machine learning-modellen, zoals random forest en XGBoost, in staat was om de prestaties van ChatGPT redelijk goed te voorspellen, hoewel de nauwkeurigheid van deze voorspellingen beperkt was. Dit suggereert dat de prestaties van ChatGPT gedeeltelijk voorspelbaar zijn op basis van het aantal en type wiskundige operaties die in een probleem voorkomen, maar dat er verdere verfijning nodig is om deze modellen praktisch bruikbaar te maken.

Wat uit deze experimenten blijkt, is dat de manier waarop ChatGPT zijn werk toont van cruciaal belang is voor de uiteindelijke nauwkeurigheid van de antwoorden. Het is niet alleen belangrijk om de juiste bewerkingen uit te voeren, maar ook om transparant te zijn in het oplossingsproces. Het tonen van tussenstappen helpt het model niet alleen om de juiste antwoorden te vinden, maar stelt het ook in staat om meer complexe problemen nauwkeuriger aan te pakken. Het is een aanwijzing voor de waarde van transparantie in AI-systemen, waarbij duidelijkheid over het interne redeneringsproces kan bijdragen aan betere prestaties, vooral bij meerstapsredenering.

Het is van essentieel belang voor de gebruiker van ChatGPT of vergelijkbare modellen om te begrijpen dat de prestaties niet alleen afhangen van het type probleem, maar ook van hoe deze worden gepresenteerd aan het model. In gevallen waarin werk wordt getoond, zijn de kansen op een fout duidelijk kleiner, wat suggereert dat gebruikers kunnen profiteren van het stellen van expliciete verzoeken om tussenstappen te tonen bij complexe wiskundige vraagstukken. Dit kan de algehele prestaties verbeteren, niet alleen bij ChatGPT, maar ook bij andere taalmodellen die worden ingezet voor soortgelijke taken. In de toekomst zou verder onderzoek naar het verbeteren van de prestaties van deze modellen bij meerstapsredenering en het optimaliseren van de manier waarop werk wordt gepresenteerd, kunnen bijdragen aan de ontwikkeling van betrouwbaardere AI-systemen.

Hoe kunnen conceptuele leermodellen efficiënter en robuuster worden in tekst-naar-beeld-generatie?

Het conceptuele leermodel ConceptBed biedt een grondige evaluatie van conceptuele leermogelijkheden in tekst-naar-beeld (T2I) diffusion modellen door een verzameling van 284 unieke concepten te onderscheiden in domeinen, objecten en attributen. Daarnaast onderzoekt ConceptBed compositionaliteit op vier niveaus: tellen, attributen, relaties en acties. Deze evaluatie toont aan dat het conceptuele begrip van deze modellen sterk correleert met menselijke interpretaties, hoewel er een fundamentele spanning blijft bestaan tussen het aanleren van concepten en het behoud van compositionaliteit. Dit spanningsveld vormt een belangrijke uitdaging waar huidige modellen moeite mee hebben.

Op basis van ConceptBed en de compositionality consistency distance (CCD) als meetinstrument werd het ECLIPSE-model ontwikkeld. ECLIPSE benut contrastief leren om kennis uit voorgetrainde visie-taal modellen, zoals CLIP, efficiënt over te dragen naar een prior model met slechts 3,3% van de parameters en 2,8% van de trainingsdata van conventionele modellen. Hiermee overtreft ECLIPSE niet alleen baseline T2I priors met een voorkeursscore van gemiddeld 71,6%, maar bereikt het ook prestaties die vergelijkbaar zijn met de meest geavanceerde grote modellen, terwijl het veel minder rekenkracht en data vereist.

De innovatie van ECLIPSE laat zien dat een reductie van modelgrootte en data-intensiteit mogelijk is zonder significante inlevering op compositionaliteit en conceptuele precisie. Uitgebreide experimenten met diffusiemodellen zoals Karlo en Kandinsky bevestigen dat deze prior modellen consequent hoge prestaties leveren met aanzienlijk minder middelen. Dit heeft implicaties voor de schaalbaarheid en toepasbaarheid van geavanceerde T2I-modellen in resource-beperkte omgevingen.

Een belangrijke uitdaging binnen gepersonaliseerde T2I (P-T2I) modellen blijft echter het balanceren van complexe visuele concepten en compositie, terwijl hyperparameters en resourcegebruik worden geminimaliseerd. Traditionele methoden zijn afhankelijk van Latent Diffusion Models (LDM’s) die via cross-attentie lagen werken, maar deze vereisen vaak hoge rekenmiddelen en leiden tot inconsistente resultaten.

De recente ontwikkeling van A-ECLIPSE toont aan dat

Hoe beïnvloeden data-kwaliteit, netwerkinfrastructuur en transfer learning de robuustheid van ML-systemen?

De robuustheid van machine learning (ML)-toepassingen onder fluctuaties in datakwaliteit (DQ) en netwerkcondities vormt een cruciale uitdaging in moderne gedistribueerde omgevingen. De prestaties van ML-systemen zijn nauw verbonden met de onderliggende infrastructuur en de integriteit van de ingevoerde data. De interactie tussen deze lagen vereist een verfijnd begrip van hoe kennis kan worden afgeleid uit systeemgedrag en worden ingezet om adaptieve strategieën te ontwikkelen voor ML-prestaties in veranderlijke contexten.

In gevallen van verslechterende netwerk-Quality of Service (QoS), zoals verhoogde latentie of pakketverlies, is de impact op de prestaties van ML-modellen merkbaar. Dit geldt in het bijzonder bij het verwerken van multimodale data zoals spraak, beeld en video. Door deze degradaties in verband te brengen met prestatieverlies van de ML-toepassing, kunnen netwerkparameters proactief worden aangepast. Dit resulteert in een dynamisch regelkader dat bijvoorbeeld automatisch overstapt op andere transportprotocollen – UDP, TCP of QUIC – afhankelijk van de geobserveerde netwerkcondities en de tolerantie van het ML-model voor prestatieverlies. Een belangrijke bevinding is dat UDP efficiënt kan zijn bij minimale pakketverlies (<2,5%) en een lichte prestatievermindering (<5%), terwijl QUIC geschikt is voor ernstige degradaties, met prestaties die boven de kritieke drempel blijven zelfs bij een pakketverlies >10%.

Een andere fundamentele pijler in het verhogen van ML-robuustheid is het gebruik van transfer learning (TL). Door reeds getrainde modellen, zoals VGG16 op het Open Images V6-dataset, opnieuw te trainen met variaties in de invoerdata – origineel, vervormd, of gemengd – wordt inzicht verkregen in hoe modellen zich aanpassen aan gewijzigde inputdynamieken. TL-strategieën gebaseerd op gemengde datasets bleken bijzonder doeltreffend in het leren van representaties die bestand zijn tegen verstoringen in datakwaliteit. De keuze van hyperparameters, zoals leersnelheid en de controle op overfitting, speelt hierbij een sleutelrol. Door het nauwkeurig volgen van fouten per epoch tijdens de training en het testen van verschillende TL-routes, wordt kennis opgebouwd die de selectie van robuuste re-trainingsstrategieën aanstuurt.

In het kader van federated learning (FL), waar modellen lokaal worden getraind

Hoe kan metacognitie AI-systemen zelfbewust en adaptief maken in complexe omgevingen?

Binnen steeds complexere probleemdomeinen waar AI-systemen opereren, wordt de noodzaak van metacognitieve vermogens almaar duidelijker. Deze vermogens zijn essentieel voor het bevorderen van veilig en gewenst gedrag van AI. Op het hoogste niveau houdt metacognitie in dat een AI-systeem niet alleen redeneert en handelt, maar zich ook bewust is van zijn eigen denkprocessen — en deze actief kan monitoren, evalueren en bijsturen.

Een geavanceerd metacognitief AI-systeem werkt via een gelaagd architecturaal model. In de kern ontwikkelt het systeem, op basis van sensorische input, een intern model van de reële wereld. Vanuit dit model worden cognitieve redeneringen opgebouwd om beslissingsaanbevelingen te genereren. Terwijl deze cognitieve processen plaatsvinden, opereert een metacognitieve laag erboven die deze processen in real time observeert, data verzamelt, fouten detecteert, onzekerheden inschat en het cognitieve functioneren aanpast wanneer nodig.

De metacognitieve subsystemen ontwikkelen een metacognitief geheugen, dat fungeert als een intern referentiekader om eerdere ervaringen, zelfmodellen en aangepaste strategieën op te slaan. Hierdoor kan het systeem niet alleen reageren op externe stimuli, maar zichzelf ook iteratief verbeteren op basis van eerdere tekortkomingen of successen.

In veel toepassingen, zeker in militaire contexten, zijn AI-systemen niet autonoom opererend, maar werken ze in samenwerking met menselijke gebruikers of teams. De AI kan beslissingen voorstellen, informatie aanleveren of autonome subsystemen aansturen. De rol van metacognitie in deze interactie is tweeledig: enerzijds biedt het transparantie en verklarend vermogen richting de menselijke operator — denk aan het inschatten van de waarschijnlijkheid van fouten in het output — anderzijds kan het systeem ook menselijke input analyseren op fouten of inconsistenties en daar correcties op uitvoeren.

Deze mens-AI interactie zal in toekomstige systemen verder evolueren naar echte co-productie: gezamenlijke besluitvorming waarin zowel menselijke als artificiële tekortkomingen worden ondervangen door metacognitieve observatie van beide actoren. Hierdoor kunnen biases, verminderde situationele aandacht, of onnauwkeurige redeneringen van de mens vroegtijdig worden gedetecteerd en gecompenseerd.

Om zulke dynamische metacognitie mogelijk te maken, is het noodzakelijk dat AI-systemen beschikken over een aantal onderliggende constructen. Deze omvatten onder andere een metacognitieve architectuur waarin verschillende modules met elkaar interageren voor zelfobservatie en doelstelling; een meta-semantische ontologie waarin abstracte representaties van processen, toestanden en gebeurtenissen kunnen worden opgeslagen; en interne metacognitieve modellen die het eigen redeneringsproces in kaart br