Hur kan neurala och symboliska metoder kombineras för att förbättra visuell resonemang?

I denna kapitel undersöks ett viktigt förhållande mellan neurala nätverk och symboliska lösare, samt hur dessa två kan kombineras för att skapa ett kraftfullt system för visuell resonemang. Här presenteras en metod som inte bara bygger på traditionella symboliska lösare eller enbart på neurala nätverk, utan en sammansmältning som möjliggör en effektivare och mer robust lösning. Metoden som introduceras, NASR, kombinerar fördelarna med både neurala och symboliska system, vilket gör att man kan hantera mer komplexa uppgifter, som till exempel visuell sudoku och scen-graf-baserade frågeställningar.

När man arbetar med sådana uppgifter är det ofta nödvändigt att tillämpa en form av förstärkningsinlärning (Reinforcement Learning, RL). Det traditionella tillvägagångssättet skulle vara att förlita sig på en symbolisk lösare, men då dessa lösare inte är differentierbara, är det svårt att kombinera dem med neurala nätverk för end-to-end-inlärning. Därför är förstärkningsinlärning ett nödvändigt verktyg. I vårt fall används REINFORCE-algoritmen, där belöningen (r) bestäms av hur väl den symboliska lösaren lyckas efter att ha maskerat resultatet från det neurala nätverket. Detta tillvägagångssätt gör det möjligt för den symboliska lösaren och det neurala nätverket att arbeta tillsammans och anpassa sig efter varandras behov under träningen, vilket är avgörande för effektiviteten.

De experimentella resultaten från tillämpningen av denna metod på visuell sudoku visar att den presterar bättre än andra metoder i de flesta fall. NASR (Neural and Symbolic Reasoning) har förmågan att inte bara förbättra de befintliga metoderna utan också vara mer tidseffektiv än andra jämförda tekniker. Samtidigt är systemet mer robust mot störningar, såsom bruset i inmatningsbilderna. Detta innebär att även om det finns felaktiga eller förvrängda bilder, som kan störa den symboliska lösaren, kan NASR hantera dessa fel och ändå leverera mer precisa lösningar.

Tidseffektiviteten hos systemet är också en viktig fördel. Genom att minska mängden tomma celler som behöver fyllas av den symboliska lösaren, reduceras sökutrymmet och därmed den totala beräkningstiden. I jämförelse med den symboliska baslinjen, som ofta är långsammare och kräver mer processorkraft, lyckas vårt system lösa problem snabbare och mer effektivt.

En annan viktig aspekt är hur vårt system hanterar olika typer av brus i indata, såsom roterade siffror eller suddiga bilder. Här visade resultaten att NASR är mycket mer motståndskraftigt mot sådant brus än den symboliska baslinjen. När vi applicerade olika former av brus, som rotationsvariationer eller Gaussisk oskärpa, kunde vårt system fortfarande ge mycket bättre resultat än den rena symboliska lösaren.

Vid jämförelser med andra neurosymboliska metoder, som SatNet och NeurASP, visade sig NASR vara överlägsen både i prestanda och robusthet, särskilt i scenarier där indata inte var perfekta. Vid integration med SatNet, som är en mjukvarulösare för MAXSAT-problem, kunde våra resultat förbättras ytterligare, vilket visade på fördelarna med att kombinera hårda och mjuka restriktioner i ett system.

För uppgiften PredCl, som handlar om att identifiera rätt predikatetikett baserat på objektetiketter och bildbokskoordinater, visade NASR utan användning av förstärkningsinlärning också imponerande resultat. När vi jämförde prestandan med en basmodell (MP-modellen), kunde NASR uppnå nästan 100 % förbättring i alla kategorier. Detta ger en stark indikation på hur viktigt det är att ha en noggrant optimerad metod för att kombinera både symboliska och neurala lösare.

Genom dessa experiment har vi visat att NASR inte bara är ett effektivt och snabbt system, utan även robust nog att hantera utmanande och störda indata, vilket gör det till ett kraftfullt verktyg för att hantera komplexa resonemangsuppgifter inom visuell intelligens. Att förstå dessa förhållanden mellan neurala och symboliska lösare är avgörande för att kunna skapa framtida system som är både effektiva och skalbara.

Det är också viktigt att förstå att medan NASR har visat sig framgångsrikt inom flera områden, finns det fortfarande utmaningar, särskilt när det gäller att skala upp systemet för mer komplexa uppgifter eller mycket stora datamängder. Samtidigt är det en påminnelse om att när man kombinerar olika typer av teknologier, måste man noggrant justera parametrar och metoder för att nå optimala resultat.

Hur kan vi uppnå certifierad robusthet i djupa neurala nätverk?

I den senaste forskningen kring certifierad robusthet i djupa neurala nätverk (DNN) har fokus legat på att utveckla metoder för att säkerställa att dessa modeller inte bara är effektiva under normala förhållanden, utan även motstår manipulationer av angripare, såsom adversarial exempel. I denna process används olika träningsmetoder och teorier för att uppnå robusthet och certifierad säkerhet. En särskilt intressant metod är relaxation-baserad träning, där målet är att minska förlusten i relation till en viss funktion, ofta en förlustfunktion som cross-entropy.

I relaxation-baserad träning beräknar vi ett övre gränsvärde för den maximala förlusten och minimerar detta värde istället för att direkt optimera nätverkets parametrar. Genom att använda tekniker som IBP (Interval Bound Propagation), polyedrisk-baserad, zonotop-baserad och dualitets-baserad certifiering, kan vi skapa en viss garantinivå för att modellen är robust mot små förändringar i ingångsvärden. En nyckelfaktor är att även om en striktare relaxation inte nödvändigtvis leder till högre certifierad robusthet, kan en lösare IBP-relaxation uppnå nästan den högsta certifierade robustheten.

En intressant aspekt av relaxation-baserad träning är att en striktare relaxationsmetod kan skapa en mindre jämn förlustyta, som innehåller diskontinuiteter eller känsliga områden, vilket gör träningen mer utmanande. Den teoretiska förståelsen av relaxation-baserad träning är fortfarande ofullständig, men det är ett viktigt område för fortsatt forskning. För att uppnå robusthet i modeller tränade med sådana tekniker är det ofta nödvändigt att använda lineära relaxeringar vid certifiering, vilket gör att dessa modeller kan certifieras effektivt.

Augmenteringsbaserad träning är en annan metod för att uppnå certifierad robusthet. Den bygger på att träna nätverken med brusiga ingångar för att säkerställa att modellen presterar bra även vid störningar. Genom att kombinera augmentering med regularisering och ensemblmetoder kan vi uppnå högre certifierad robusthet. Denna metod är särskilt användbar för att hantera adversariella exempel, där modellen tränas för att vara mer stabil och konsekvent i sina förutsägelser även under störningar. Diffusionsmodeller, som har en inneboende förmåga att ta bort brus, har visat sig vara effektivare än många tidigare metoder för att uppnå certifierad robusthet.

För att säkerställa en robust modell mot olika typer av hot finns det ytterligare förlängningar av certifierade metoder som går bortom de klassiska modellerna. Ett exempel är förmågan att hantera lokala och globala undvikande attacker, där angriparen försöker manipulera indata för att vilseleda modellen. Lokala attacker innebär att angriparen gör små förändringar i de indata som finns inom modellens träningsfördelning, medan globala attacker kan påverka hela indataområdet. För att hantera dessa attacker används olika metoder som smoothing, där flera brusiga ingångar aggregeras för att ge en mer robust förutsägelse.

Utöver detta finns även tekniker för att hantera distributionella undvikande attacker, där angriparen försöker skifta testdatafördelningen för att maximera förlusten. Certifiering mot sådana attacker kan uppnås genom att använda dualitetsmetoder eller smoothing-baserade tillvägagångssätt för att härleda ett övre gränsvärde för förlusten. Dessutom har det visat sig vara viktigt att designa träningsmetoder och arkitekturer som är specifikt anpassade för att hantera dessa hot.

Certifiering och robust träning har också förlängts för att stödja fler typer av maskininlärningsmodeller utöver de klassiska djupa nätverken. Det har utvecklats metoder för att certifiera ReLU-nätverk, återkommande nätverk, transformatorer och generativa modeller. Dessa metoder bygger ofta på att härleda linjära gränser för aktiveringsfunktioner eller uppmärksamhetsmekanismer som är specifika för varje modell. Det finns också certifieringstekniker för beslutsträd och liknande modeller, även om det ännu inte finns en universell certifieringsmetod som fungerar för alla maskininlärningssystem.

För att verkligen förstå robustheten hos modeller och hur vi kan uppnå certifierad säkerhet är det avgörande att inte bara fokusera på att optimera förlustfunktionen utan också att noggrant överväga hur dessa modeller hanterar olika typer av störningar och manipulationer. Genom att kombinera flera metoder, från relaxation-baserad träning till augmentering och avancerade certifieringstekniker, kan vi skapa modeller som är inte bara effektiva, utan också motståndskraftiga mot de hot som finns i dagens datadrivna värld.

Hur kan agenten navigera genom fysikens regler när den misslyckas med att följa planerade instruktioner?

I många fall, när vi arbetar med stora språkmodeller (LLM), uppstår problem som rör hur objekt och deras fysik behandlas. Dessa modeller, trots sin kraft, misslyckas ofta med att korrekt förstå och tillämpa fysiska principer som tröghet eller gravitation. Ett tydligt exempel på detta är att både ChatGPT och LLaMA 2 tenderar att förväxla radien på en sfär med dess diameter, vilket leder till felaktiga slutsatser om höjd och struktur. Om man följer instruktionerna som ges av dessa modeller, som till exempel att stapla objekt för att nå en viss höjd, kan det snabbt bli uppenbart att den föreslagna lösningen är fysikaliskt omöjlig. En kub och en sfär staplade på varandra är inte en stabil struktur; den skulle inte kunna bära vikt och skulle vara farlig för en agent att interagera med.

En sådan problematik uppstår just därför att LLM inte har någon verklig förståelse för den fysiska världen. De är bra på att manipulera symboler och ord men saknar förmågan att känna av de icke-språkliga aspekterna av världen, som fysik och objektinteraktion. En av de viktigaste begränsningarna är att dessa modeller inte har någon inbyggd mekanism för att känna igen när en lösning inte är realistisk eller genomförbar i en fysisk miljö. Istället fortsätter de att följa sina beräknade steg utan att kunna justera eller förstå de praktiska begränsningarna som en verklig agent skulle behöva ta hänsyn till.

För att en agent ska kunna genomföra en uppgift som den ovanstående, där den måste använda objekt som kuber, sfärer och cylindrar för att nå en plattform, krävs mer än bara att följa enkla instruktioner. En agent, oavsett om den är embodied eller digital, måste kunna förstå vilka objekt som är stabila att stapla, och vilka som kan rulla eller välta. Om vi återgår till exemplet där en agent försöker bygga en hög med de givna objekten, är det klart att modellen som föreslår att en sfär och en kub kan staplas på varandra för att uppnå en viss höjd ignorerar stabilitetsprinciperna.

När en agent får en plan som inte kan genomföras, triggas ofta en "exploration process" där agenten börjar undersöka sin omgivning på egen hand, genom att testa och samla information om de objekt den möter. Denna utforskning gör det möjligt för agenten att identifiera egenskaper hos objekten som gör dem antingen stabila eller instabila när de staplas. För att detta ska vara möjligt behöver agenten ha tillgång till en grundläggande kunskapsbas om objekts fysiska egenskaper. Ett sådant system kan använda en modell som VoxML, vilken specificerar objektens egenskaper som symmetri och de möjliga interaktionerna mellan dem i en simulering.

När agenten inte kan fortsätta följa den initialt genererade planen, på grund av att fysiken inte tillåter det, måste den ha en mekanism för att självmant övergå till en alternativ lösning. Det handlar om att genomföra en form av analogiskt resonemang, där agenten reflekterar över sina egna begränsningar och söker efter objekt eller konfigurationer som kan lösa problemet på ett mer realistiskt sätt. Detta kräver en förmåga att inte bara känna igen objektens egenskaper utan också att kunna förstå när det är nödvändigt att modifiera sin strategi för att nå målet.

Vid utforskning av objekt måste agenten kunna navigera i en latent rum där objektens egenskaper kategoriseras och associeras med tidigare erfarenheter. Detta gör det möjligt för agenten att snabbt avgöra om ett objekt är stabilt när det placeras i en viss orientering, eller om det behöver anpassas för att kunna användas effektivt i en given situation. Genom att använda vektorlikhet i detta latent rum, kan agenten identifiera likheter mellan objekt som inte explicit ingår i den tränade modellen, som till exempel en cylinder, och andra objekt med kända egenskaper.

För att förbättra agentens förmåga att genomföra uppgifter som den här, är det viktigt att förstå att den inte bara följer en uppsättning instruktioner. Den utför en dynamisk bedömning av sin omgivning och gör justeringar baserat på den fysiska verkligheten. Detta är en av de största utmaningarna med att skapa verkliga "smart agents" som kan agera självständigt och effektivt i världen: de måste inte bara förstå symbolik och språk, utan även de underliggande fysikaliska lagarna och hur objekt interagerar med varandra i olika kontexter.

Vilka är de olika typerna av referenscirklar i rundhetmätning och hur påverkar de mätresultatet?
Hur påverkar koncentrationen och gapstorlek överföringen av värme i emulsioner under kokning?
Hur små ferromagnetoelastiska fält påverkar dispersionen i material och strukturer
Kan primordiala svarta hål förklara mörk materia?