För att skapa AI-system som är både effektiva och tillförlitliga i interaktioner med människor, måste dessa system ha en förståelse för och kunna hantera förtroende. Det handlar inte bara om att skapa intelligenta maskiner som kan utföra uppgifter utan också om att säkerställa att maskinerna och människorna i ett team kan lita på varandra. En grundläggande komponent i att uppnå detta är att beväpna AI-system med metakognitiva förmågor – förmågan att förstå och reflektera över egna tankar, processer och beslut.

Ett exempel på detta är hur syntaktisk och semantisk information i lexikala poster samverkar för att möjliggöra förklarlig lexikal disambiguering. Detta är en central uppgift inom texttolkning, där AI-system måste kunna urskilja olika betydelser av ord och fraser baserat på deras kontext. För att uppnå detta, måste dessa system koppla syntaktiska strukturer (som Subjekt-Verb-Objekt) till semantiska strukturer (som Agent-Händelse-Tema), vilket gör att varje ords betydelse kan förstås i relation till dess omgivning.

Denna typ av förståelse kräver också att AI-system kan skapa ontologiska modeller – representationssystem som definierar objekt, händelser och relationer mellan dessa i en struktur som kan användas för att tolka världen. I dessa modeller kan exempelvis ett objekt som "flygplan" definieras på olika sätt, beroende på dess funktion eller användning. Ontologiska system använder sig också av visuella representationer för att illustrera objektens olika aspekter och synvinklar, vilket gör det lättare för systemet att känna igen dessa objekt i olika situationer och kontexter.

För att dessa ontologiska och lexikala system ska vara effektiva i praktiska tillämpningar måste de också kunna lära sig och utvecklas över tid. Detta sker genom en process som kallas "ontologisk tolkning", där AI-systemet gradvis lär sig att förstå och tolka text och betydelser utifrån den ontologiska strukturen. En viktig aspekt av denna process är att kunna använda redan existerande kunskap (som lexikala databaser och ontologier) för att automatiskt bygga vidare på systemets förståelse och förbättra dess förmåga att tolka nya data.

Men det räcker inte att endast ha ett effektivt system för att tolka och analysera data. För att en AI att kunna vara en pålitlig medlem i ett team, måste den förstå sin egen kapabilitet och kunna bedöma förtroendet mellan sig själv och andra agenter. Detta innebär att AI-system måste utveckla metakognitiva förmågor – det vill säga förmågan att reflektera över sina egna processer, sina egna styrkor och svagheter. Dessa förmågor är fundamentala för att AI-system ska kunna bedöma när de ska lita på andra, och när de inte kan göra det.

I praktiska tillämpningar av AI-team krävs också en förståelse för olika medlemmars roller i teamet. Till exempel, om en AI arbetar tillsammans med människor, måste systemet kunna identifiera och förstå människors intentioner, förmågor och behov för att kunna interagera på ett effektivt och förtroendefullt sätt. Detta kan innebära att AI-systemet måste ha en form av "mindreading" – förmågan att förstå och förutsäga andras tankar och handlingar. För att kunna göra detta måste systemet också kunna bedöma sin egen roll i teamet och hur det kan påverka förtroendet mellan alla medlemmar.

AI-system som är utformade för att arbeta i team behöver också förstå hur förtroende kan byggas och underhållas över tid. Förtroende är inte en statisk egenskap, utan en dynamisk process som utvecklas genom interaktioner och erfarenheter. När AI-system utvecklar sin förmåga att bedöma och underhålla förtroende, kan de bättre samarbeta med både människor och andra AI-system. Detta kräver inte bara en teknisk förståelse för förtroende, utan också en social förståelse för hur förtroende fungerar i mänskliga team och hur det kan överföras till maskinella agenter.

För att bygga system som kan förstå och upprätthålla förtroende i dynamiska och osäkra miljöer, måste man utveckla teknologier som möjliggör för AI att både förstå sin omgivning och reflektera över sina egna handlingar. Detta är en pågående utmaning inom forskningen om AI och människa-maskin-interaktion, och kräver innovativa lösningar för att hantera komplexa frågeställningar som rör tillit, samarbete och beslutsfattande i samspel mellan människor och maskiner.

Hur kan metakognitiva interventioner förbättra prestandan hos stora språkmodeller?

Metakognitiva interventioner, som efterliknar människans kognitiva processer, spelar en avgörande roll för att förbättra prestandan hos stora språkmodeller (LLM) genom att identifiera och åtgärda potentiella fel och komplexa fall under inferens. Precis som människans hjärna kan analysera och upptäcka potentiella fallgropar i problemlösning, kan vårt MoCE-ramverk (Metacognitive Intervention for Accountable Language Models) identifiera när modellen har låg säkerhet i sina förutsägelser och kräver extra resurser för att förbättra sin noggrannhet. Detta görs genom att dirigera modellen att använda experter från en spars nätverksstruktur, vilket säkerställer att komplexa uppgifter behandlas mer noggrant.

När en språkmodell genomgår inferens, där den gör förutsägelser baserat på inlärda mönster, påverkas den slutliga klassificeringen starkt av de lärda routingpolicyerna och de aktiverade koncepten. När det gäller felaktiga förutsägelser tenderar de att ha en högre entropi i logitternas fördelning, vilket innebär att modellen har en mer utspridd osäkerhet om sin slutgiltiga förutsägelse. Denna osäkerhet kan identifieras genom att mäta Shannon-entropin för de logitternas distribution, vilket gör att modellen kan känna igen när förutsägelsen inte är tillräckligt pålitlig och kräver ytterligare uppmärksamhet.

För att hantera dessa osäkra situationer används en dynamisk klusterteknik som kallas K-Means för att dela upp confidence-nivåerna i två grupper. Den grupp som har lägre säkerhet anses innehålla de mer utmanande fallen, där modellen behöver aktivera extra resurser. K-Means-metoden är särskilt användbar eftersom den eliminerar behovet av mänsklig inblandning och gör att trösklarna för att identifiera osäkra förutsägelser kan bestämmas automatiskt.

När en osäker förutsägelse upptäcks, tilldelas modellen extra beräkningsresurser genom att utöka antalet experter som används. Detta görs utan att justera modellens parametrar, vilket gör processen mycket effektiv och snabb. Genom att öka mängden expertresurser kan modellen få en mer pålitlig och noggrann förutsägelse utan att det påverkar prestandan på ett negativt sätt.

Ett tydligt exempel på hur denna metakognitiva intervention fungerar i praktiken presenteras i en fallstudie som visar hur modellen kan förbättra en felaktig förutsägelse för begreppet "Cinematography" från ett felaktigt "-" till ett korrekt "+". Detta illustrerar hur metoden gör det möjligt att förfina den slutliga uppgiften genom att öka noggrannheten på specifika områden där modellen ursprungligen hade svårt att göra rätt bedömning. I den visuella representationen av fallstudien ses hur experter och konceptaktiveringar förändras före och efter interventionen, vilket ger en detaljerad insikt i de underliggande neurala mekanismerna som stöder denna strategi.

En central fördel med denna metakognitiva intervention är dess förmåga att inte bara förbättra förutsägelser utan också att tolka och förklara varför fel inträffar. Genom att mäta varje koncept aktivering och vikten av dessa aktiveringar kan man beräkna hur mycket varje koncept påverkar den slutliga beslutet. Detta gör det möjligt att inte bara rätta till fel utan också att förstå varför ett visst fel uppstod, vilket i sin tur gör modellen mer transparent och pålitlig.

Det är också värt att förstå att metakognitiva interventioner inte bara förbättrar exaktheten hos LLM:er, utan de spelar också en viktig roll i att göra dessa modeller mer ansvarsfulla och användbara i verkliga tillämpningar. Genom att automatiskt identifiera och åtgärda fel kan dessa system bli mer pålitliga för användare som kräver en hög nivå av precision och förklarbarhet.

Metoden har också praktiska implikationer för att förbättra stora språkmodellers förmåga att hantera komplexa uppgifter utan att behöva öka modellens totala storlek. Istället för att ständigt bygga större och mer komplexa nätverk, kan denna typ av intervention tillhandahålla en mer resurssnål lösning för att hantera svåra uppgifter och förbättra modellens prestanda där det verkligen behövs.

Hur kan certifiering och träning i djupa nätverk förbättra pålitligheten och generaliserbarheten?

I de senaste åren har en mångfald av certifieringstekniker för djupa nätverk (DNNs) utvecklats, särskilt med avseende på att säkerställa pålitlighet och robusthet mot externa störningar. Dessa metoder kan delas in i olika kategorier beroende på deras kärnmetodik och mål, vilket gör det möjligt att skapa en detaljerad taxonomi för dessa tillvägagångssätt. En intressant aspekt av dessa tekniker är att de ofta balanserar mellan två huvudsakliga faktorer: effektivitet och generaliserbarhet. Den största utmaningen är att uppnå en certifiering som både är korrekt och skalbar, samtidigt som man inte går på kompromiss med nätverkets prestanda.

Certifiering av djupa nätverk handlar ofta om att säkerställa deras förmåga att hantera osäkerheter eller störningar. De mest generaliserbara teknikerna är de som ofta betraktas som svartlådemetoder, där modellen inte kräver detaljerad insikt i dess inre strukturer. Dessa metoder tenderar dock att ha en högre inferensöverhuvud, vilket innebär att det finns ett avvägande mellan att uppnå robusthet och bibehålla hög prestanda under praktiska förhållanden. Å andra sidan innebär mer restriktiva metoder, som de som endast stöder specifika Lipschitz-bundna lager, oftast att man uppnår en mer effektiv lösning men på bekostnad av modellens flexibilitet och generaliserbarhet.

För att systematiskt undersöka och jämföra dessa metoder har en taxonomi av certifieringsmetoder utvecklats. Denna taxonomi kategoriserar metoderna baserat på flera faktorer som t.ex. metodens skalbarhet, generaliserbarhet och verifierbarhet. Denna typ av kategorisering har lett till en insikt om att det finns ett stort antal olika tillvägagångssätt, de flesta av dem utvecklades under de senaste fem åren, vilket återspeglar den snabba utvecklingen inom detta forskningsområde.

I kontrast till certifieringsmetoder är metoder för certifierad träning ofta enklare, där de flesta av dem delar samma grundläggande procedur: gradientbaserad optimering över träningsdata i miniatyrbatcher. De viktigaste skillnaderna mellan dessa metoder ligger i hur de behandlar datatillskott, förträning, förlustberäkning och regularisering. Beroende på vilken metod som används kan träningen bli anpassad för att säkerställa att nätverket inte bara är effektivt utan också certifierat robust.

En av de mest effektiva teknikerna för certifierad träning baseras på branch-and-bound (BaB) och mixed integer programming (MIP), vilka används för att uppnå fullständig certifiering. Dessa metoder har visat sig vara mycket effektiva för att säkerställa att de stabila ReLU-neuronerna i nätverket inte orsakar instabilitet under träningen. För nätverk som använder ReLU som aktiveringsfunktion innebär detta att man kan använda en regulariseringsterm som ökar neuronernas stabilitet och därmed förbättrar den övergripande robustheten i modellen.

Ett intressant fenomen i detta sammanhang är hur tekniker som använder Lipschitz-bounds eller kurvaturcertifiering direkt gynnar träningsmetoder som strävar efter att minska dessa värden. Metoder som explicit straffar stora Lipschitz- eller kurvaturvärden har visat sig vara effektiva när det gäller att uppnå robust träning. Dessa metoder tenderar att skapa nätverk som är mer motståndskraftiga mot störningar och adversariala attacker.

Träning med relaxeringstekniker är en annan metod för att uppnå certifiering genom att förbättra de linjära relaxeringsbegränsningarna. Detta görs genom att använda de beräknade gränserna som träningsmål för att förbättra tätheten i dessa gränser. Detta liknar den empiri som används i adversarial träning, där nätverket tränas på att identifiera de "mest adversariella" exemplen genom att använda effektiva attacker för att hitta de svagaste punkterna i modellen.

För att förstå certifiering och robust träning är det viktigt att läsa mellan raderna och inse att det handlar om att hitta rätt balans mellan de olika faktorerna: effektivitet, generaliserbarhet och säkerhet. Det är inte tillräckligt att bara förbättra nätverkens prestanda under normala förhållanden, utan det måste också finnas en säkerhet för att dessa nätverk inte kommer att misslyckas när de utsätts för oväntade eller onormala ingångar.

Certifiering och träning i djupa nätverk är en växande forskningsinriktning där varje metod och varje ny tillvägagångssätt erbjuder nya insikter om hur man kan skapa mer pålitliga och robusta maskininlärningsmodeller. Teknikerna och de metoder som används idag är inte perfekta, men de markerar viktiga steg mot en mer säker och effektiv användning av djupa nätverk, vilket har enorma tillämpningar inom områden som autonoma system, säkerhet och medicinsk diagnostik.