Metakognitiv artificiell intelligens (AI) innebär en AI:s förmåga att självkorrigera och självreglera sina prediktioner, vilket möjliggör förtroende i högrisk- och säkerhetskritiska tillämpningar som självkörande bilar och ansiktsigenkänning. Metakognitiv AI är därför nära kopplad till certifierad AI och pålitlig AI, två områden som fokuserar på att utrusta AI med garantier för tillförlitlighet i högriskdomäner. Certifierade metoder inom djupinlärning erbjuder ett sätt att säkerställa att systemen inte bara fungerar effektivt, utan också på ett förutsägbart och pålitligt sätt när de tillämpas i praktiken.

En certifierad metod är inte bara en teoretisk modell, utan ett konkret sätt att garantera att en AI:s beteende är konsekvent och korrekt under definierade förhållanden. Detta kan exempelvis inkludera garanterad robusthet mot externa störningar eller säkerställandet att AI-systemet kommer att fungera under extrema förhållanden utan att krascha eller ge felaktiga resultat.

För att definiera en certifierad metod krävs två huvudkomponenter: en hotmodell och en egenskapsprövning. Hotmodellen är en uppsättning möjliga tillstånd för systemet, ofta definierad med hjälp av en radiusparameter som anger hur mycket inputen får förändras för att fortfarande ge ett pålitligt resultat. Egenskapsprövningen bedömer om en viss egenskap, som till exempel systemets förmåga att korrekt klassificera trots störningar, verkligen uppfylls under dessa förhållanden. Detta skapar en ram för att säkerställa att systemet inte bara fungerar bra i teorin, utan även i praktiska, potentiellt riskfyllda scenarier.

Exempel på hotmodeller kan vara lp-bundna fiender, där angriparen kan skapa en förvrängd input så länge förändringen håller sig inom en viss normgräns (t.ex. en viss avvikelse från det ursprungliga värdet). Andra exempel kan vara semantiska angripare som utför domänspecifika transformationer på inputdata eller attacker som involverar förgiftning av träningsdata.

En sådan certifierad metod innebär att vi inte bara förlitar oss på traditionella prestandamått som noggrannhet eller förlust, utan vi strävar efter att etablera garantier som gör att systemet förblir pålitligt, även när det stöter på oförutsedda eller fientliga förhållanden.

Metakognitiva AI-system, som är designade för att identifiera när de är osäkra på sina prediktioner, kan ge ytterligare garantier genom att justera sitt beteende baserat på dessa osäkerheter. Detta gör att sådana system inte bara kan reagera på förändrade omständigheter, utan också förutse när en viss åtgärd eller förutsägelse är osäker och därmed undvika beslut som kan leda till allvarliga fel.

Ett konkret exempel på hur certifierad tillförlitlighet kan implementeras i ett system är genom konform förutsägelse, en metod som används för att skapa osäkerhetsgränser för modellens prediktioner. Detta innebär att vi inte bara får en förutsägelse, utan också en tillförlitlighetsintervall som indikerar hur säker modellen är på sitt resultat. Sådana metoder gör det möjligt att ge en formell garanti om att modellen kommer att agera på ett förutsägbart sätt, även när den möter osäkerheter eller ofullständiga data.

För att på riktigt uppnå certifierad tillförlitlighet i djupinlärning måste dessa metoder integreras i alla faser av AI-systemets utveckling. Det innebär att inte bara utvärdera systemets prestanda efter det att det tränats, utan också säkerställa att systemet kontinuerligt uppfyller sina säkerhets- och tillförlitlighetskrav under hela livscykeln. Detta kan exempelvis omfatta realtidsövervakning av systemets beteende under drift, där det kontinuerligt validerar sina egna prediktioner mot uppsatta krav på noggrannhet och robusthet.

För läsaren är det viktigt att förstå att denna certifiering inte bara är en teoretisk metod utan något som måste tillämpas konkret i praktiken för att AI-system verkligen ska kunna betraktas som pålitliga i kritiska sammanhang. Certifiering är en process som kräver rigorös testning och validering, och det är avgörande att dessa metoder införlivas i de tidiga stadierna av systemdesignen. Målet är inte bara att uppnå hög prestanda i en statisk testmiljö, utan att säkerställa att systemet kan hantera och reagera korrekt i dynamiska och osäkra miljöer.

Hur kan probabilistisk resonemang användas för att säkerställa rättvisa och robusthet i AI-system?

Ett centralt aspekter av metakognitiv AI är agentens förmåga att resonera om sitt eget beteende. Specifikt, för att AI-system ska kunna tillämpas i verkliga applikationer med stor påverkan, är det avgörande att vi kan resonera om och säkerställa deras rättvisa och robusthet. Här presenteras en probabilistisk ram för att revidera och säkerställa rättvisan i automatiserade beslutsystem, med klassificerare som huvudexempel, samtidigt som man hanterar osäkerheter och störningar i distributionen.

Frågor om modellens beteende, som robusthet och rättvisa, måste besvaras i förhållande till den värld där modellen ska verka. Ett viktigt övervägande för algoritmisk rättvisa är närvaron av proxyvariabler. Dessa är variabler som är korrelerade med känsliga attribut, såsom kön och ras, vilka skyddas av lagar, och som kan läcka information och introducera partiskhet även när de känsliga attributen inte används direkt för att fatta beslut (t.ex. postnummer som en proxy för ras). Den grad av korrelation som en variabel har med ett känsligt attribut beror på den underliggande befolkningen; i själva verket kan en till synes oskyldig variabel i en population vara en problematisk proxy i en annan. Det är praktiskt taget omöjligt att fånga en perfekt beskrivning av världen i alla dess detaljer, men vi kan använda probabilistiska modeller för att representera den underliggande fördelningen med inneboende osäkerheter. Givet en sådan modell av världen kan olika frågor inom området för pålitlig AI omvandlas till probabilistiska inferenstjänster på modellen. Ett exempel kan vara att ge förklaringar för en viss instans av bildklassificering genom att fråga vilka delmängder av pixlar som leder till samma klassificering med högst sannolikhet.

En enkel rättvisecheck undersöker om den genomsnittliga beslutet skiljer sig avsevärt mellan skyddade grupper (t.ex. mellan män och kvinnor). Detta motsvarar att jämföra förväntningen av en modellutgång, beräknad med avseende på den underliggande fördelningen för varje subpopulation. Därför skulle en probabilistisk modell med flexibla inferensmöjligheter göra det möjligt att resonera om olika beteenden för pålitlig AI. Dessutom finns det ytterligare källor till osäkerhet när AI- och maskininlärningssystem används i den verkliga världen. Medan modeller definieras över en uppsättning funktioner, är det ofta förknippat med en kostnad att observera en funktion i praktiska inställningar. Tänk till exempel på en medicinsk diagnostik där en patient diagnostiseras utan att genomgå alla möjliga tester, eftersom det skulle vara kostsamt och orealistiskt. Således kan olika uppsättningar av funktioner observeras för olika individer, eller så kan uppsättningen av funktioner behöva reduceras, vilket gör att man kan undra hur robust beslutet är mot potentiella resultat av ouppmärksammade funktioner. Dessutom kan det finnas brus eller partiskhet i träningsetiketterna. Detta gör det inte bara utmanande att lära sig rättvisa klassificerare utan även att mäta rättvisa.

Probabilistisk modellering och resonemang ger ett tydligt språk och verktyg för att resonera om dessa modellbeteenden samtidigt som man hanterar de osäkerheter som nämnts ovan. I detta sammanhang fokuserar vi särskilt på hur gruppbaserad rättvisa kan beaktas under etikettbias. För att förstå denna aspekt är det viktigt att notera att rättvisa inte enbart handlar om att vara rättvis i en individuell situation, utan om att upprätthålla rättvisa över hela populationen, särskilt med avseende på diskriminering som kan uppstå genom förvrängda eller felaktiga etiketter.

Det är också viktigt att förstå att probabilistiska modeller i verkliga tillämpningar handlar om mer än bara matematiska funktioner; de är grundläggande för att säkerställa att AI-beslut är transparenta, rättvisa och konsekventa, även när systemen interagerar med människor och samhället på mer komplexa sätt. För den som arbetar med att utveckla eller implementera AI-system är det avgörande att integrera metoder som inte bara förutser resultat utan även hanterar osäkerheter i input och i de data som används för att träna dessa system.

Hur kan metakognition förbättra AI-interaktioner och säkerhet i militära sammanhang?

I de tre huvudtyperna av interaktioner mellan människa och AI spelar metakognition en central roll för att optimera systemens funktionalitet och säkerhet. När människan befinner sig i rollen som "mottagare", producerar AI-systemet sina resultat – ofta som dataprocesser eller rekommendationer – och människan är primärt en mottagare av denna information. Metakognition i denna kontext fokuserar inåt, inom själva AI-systemet, för att främja självmedvetenhet och förbättra de interna processerna. Här handlar det om att AI-systemet själv kan reflektera över sina egna beslut och processer för att ständigt förbättras.

I en annan kontext, när människan är i rollen som "kontrollant", innebär interaktionen mellan människa och AI-system att människan tillhandahåller data, information och kommandon. Metakognition i denna roll sträcker sig bortom att endast förstå och bearbeta kommandon, utan fokuserar på att också övervaka hur interaktionerna mellan människan och systemet sker. AI-systemet får här möjlighet att reflektera över konsekvenserna av de mänskliga inmatningarna och hur de påverkar dess egna resultat och produkter. I detta sammanhang innebär metakognitiva processer också att AI:n kan analysera de beslut som människan fattar och förstå om de är lämpliga eller om de leder till oönskade utfall.

Det mest komplexa arrangemanget sker när människan och AI-systemet fungerar som "teammedlemmar". Här är interaktionen mellan människa och maskin mycket dynamisk och båda parter är involverade i beslutsprocesserna. Metakognition i detta scenario utvidgas för att omfatta både AI-systemet och människan, vilket ger båda parter en större grad av självmedvetenhet och kontroll över beslutsfattandet. Metakognitionen här handlar inte bara om att reglera och förstå systemet, utan också om att övervaka och reglera den mänskliga deltagarens roll. Detta gör det möjligt för AI-systemet att identifiera när mänsklig inblandning kan påverka beslutet, vilket kan vara avgörande för att undvika felaktiga beslut och misstag.

När vi ser på AI:s användning inom säkerhetskritiska områden som militära operationer, till exempel, växer behovet av att säkerställa att metakognition används för att förhindra oönskade beteenden och systemfel. En sådan användning är den så kallade "kill chain" – en serie beslut och åtgärder som leder till användning av vapen eller andra militära system. AI har redan visat sig vara användbart för att observera stridsfält och identifiera hot, som i fallet med att särskilja fientliga missiler från vänliga flygplan. Ett misslyckande här kan emellertid få katastrofala konsekvenser, såsom vänskapseld eller missriktade attacker. AI kan även spela en roll i att hjälpa till att fatta beslut om det är lämpligt att använda vapen i en viss situation, vilket väcker viktiga etiska frågor.

AI:s förmåga att tillämpa metakognitiva processer för att säkerställa att det följer etiska riktlinjer och normer är av yttersta vikt. Vid militära operationer är det inte bara ett misslyckande av teknologin som kan leda till oönskade konsekvenser utan även den mänskliga faktorn. Överdriven tillit eller misstro mot AI-systemet kan leda till felaktiga beslut. Det är därför avgörande att metakognitiva metoder utvecklas för att både identifiera och förhindra dessa problem innan de uppstår. Ett av de största riskerna är när operatörer förlitar sig för mycket på AI-systemet och därmed förlorar sin kritiska bedömning, vilket potentiellt kan leda till fatala misstag.

En annan aspekt som är viktig att förstå när man ser på AI:s potential inom militär säkerhet är de olika typerna av fel som kan uppstå. AI-system kan misslyckas på flera olika sätt: dåliga eller partiska beslut, problem i interaktionen mellan människor och maskiner, eller sårbarheter som kan utnyttjas genom cyberattacker. I en krigssituation, där varje beslut har enorma konsekvenser, är det därför avgörande att metakognition kan identifiera dessa fel innan de leder till katastrof. AI kan inte bara hjälpa till att upptäcka dessa fel utan även föreslå åtgärder som kan vidtas för att rätta till dem innan de orsakar skada.

Metakognition ger oss möjlighet att bygga system som inte bara reflekterar över sina egna operationer utan också omvärderar sina interaktioner med den mänskliga faktorn, och därmed förbättrar både den tekniska säkerheten och den etiska integriteten hos AI. Genom att integrera metakognition kan AI-system upptäcka och reagera på oplanerade eller okända situationer, vilket ger både människan och systemet en bättre möjlighet att agera på ett säkert och ansvarsfullt sätt. Denna förmåga att förutse egna handlingar och justera dem i realtid är inte bara en teknologisk prestation utan en viktig komponent för att säkerställa att AI-system fungerar säkert och etiskt i de mest kritiska och farliga sammanhangen.