När vi tar mätningar för ett givet x, varierar dessa mätningar något varje gång. Denna slumpmässighet, som visas med hjälp av felstaplar i diagrammet, är känd som aleatorisk osäkerhet, eftersom den är den inneboende störningen. I de regioner där vi saknar data, det vill säga när vi interpolerar eller extrapolerar, är den epistemiska osäkerheten hög. Ju längre bort vi är från den data vi har, desto högre blir osäkerheten. Att uppskatta den aleatoriska osäkerheten är relativt enkelt, och de flesta frekventistiska statistiska metoder behandlar detta. Däremot innebär kvantifiering av epistemisk osäkerhet att vi måste representera flera modeller genom en uppsättning, ett ensemble eller en sannolikhetsfördelning. I djupa ensemblemodeller och Monte Carlo dropout är det uppenbart att det finns flera modeller, eftersom dessa metoder tar hänsyn till olika viktkombinationer av det neurala nätverket. När en sannolikhetsfördelning introduceras över vikterna i ett neuralt nätverk, som i Bayesiska metoder, skapas det implicit ett oändligt antal neurala nätverk, där vissa modeller är mer sannolika än andra.

Termen "Bayesiansk" är ofta överanvänd i robotikens värld. I vissa klassiska tillämpningsområden av robotik, som filtrering, används termen "Bayesiansk" varje gång Bayes sats tillämpas. I mer avancerade lärandeuppgifter introduceras en fördelning över parametrarna för ML-modellen, och Bayes sats används för att uppskatta parametrarnas fördelning givet den data som finns. Inom vissa underområden av Bayesiansk statistik används termen "Bayesiansk" endast när approximativa Bayesianska inferenstekniker, som Markov Chain Monte Carlo eller variational inference, används för att lösa komplexa problem med många priors och hyperpriors. Under sådan terminologi anses inte ens vanliga Gaussiska processer (GP), som betraktas som en Bayesiansk icke-parametrisk teknik inom statistisk ML, vara tillräckligt Bayesianska, eftersom de inte inför parametrar för hyperparametrarna i GP-kärnorna.

Osäkerhet är en fundamental aspekt av alla prediktiva modeller, och att kunna mäta och förstå dessa osäkerheter är avgörande för robotik, särskilt när det gäller autonoma system. Eftersom dessa system ofta arbetar i miljöer där data är ofullständig eller osäker, blir kvantifiering av både aleatorisk och epistemisk osäkerhet avgörande för att fatta informerade beslut. Denna osäkerhet kan påverka robotens beteende, beslut och prestanda, vilket gör det nödvändigt att inte bara skapa noggranna modeller utan även att förstå och hantera deras osäkerheter.

För att förstå och hantera dessa osäkerheter används olika metoder beroende på vilken typ av osäkerhet som dominerar. För aleatorisk osäkerhet, där den slumpmässiga variationen är mer eller mindre konstant och lätt att mäta, är traditionella statistiska metoder ofta tillräckliga. För epistemisk osäkerhet, som handlar om osäkerheten vi har på grund av brist på data, krävs mer komplexa metoder som använder flera modeller för att beskriva olika möjliga scenarier. Bayesianska metoder, med deras förmåga att hantera fördelningar över parametrar och vikter, spelar en central roll här.

Det är också viktigt att förstå att osäkerhet i prediktiva modeller inte enbart handlar om att skapa bättre modeller, utan också om att bygga system som kan hantera och ta hänsyn till dessa osäkerheter. Detta innebär att system kan utvecklas för att inte bara ge en enda förutsägelse, utan också uppskatta och kommunicera graden av osäkerhet som är förknippad med varje förutsägelse. Ett system som är medvetet om sin egen osäkerhet kan fatta bättre beslut, särskilt i komplexa och dynamiska miljöer.

En annan aspekt som bör beaktas är att det finns olika nivåer av osäkerhet beroende på kontexten och den specifika tillämpningen av roboten. För robotar som arbetar i otydliga eller oförutsägbara miljöer, där nya och okända situationer kan uppstå, blir det nödvändigt att bygga modeller som kan anpassa sig till förändrade omständigheter och samtidigt hantera högre nivåer av osäkerhet. Detta innebär också att det finns ett behov av att förstå och utveckla metoder som tillåter modeller att hantera osäkerhet över tid, snarare än att se den som en engångsfaktor.

Denna dynamik mellan att kvantifiera, hantera och anpassa sig till osäkerhet är inte bara tekniskt viktig utan också psykologiskt och praktiskt. För att förstå och förlita sig på dessa system i praktiska tillämpningar måste både utvecklare och användare förstå gränserna för de modeller de arbetar med och de osäkerheter dessa modeller kan ha.

Hur Kan Vi Använda Osäkerhet i Modeller för Bättre Förutsägelser?

Epistemisk osäkerhet är en central aspekt när vi försöker förbättra våra modeller genom att ta hänsyn till den osäkerhet som finns i data och våra antaganden. Processen kan beskrivas som en form av variational inference (VI), där målet är att approximera den sanna posteriordistributionen genom att lära oss en parameteriserad distribution q(w)q(w) som matchar den verkliga posteriordistributionen p(wy)p(w|y). För att göra detta måste vi minimera Kullback-Leibler-divergensen mellan de två fördelningarna. Eftersom den sanna posteriordistributionen ofta är okänd, räknar vi istället med en nedre gräns, vanligtvis kallad Evidence Lower Bound (ELBO), vilket gör problemet hanterbart genom att omvandla det till ett optimeringsproblem.

I variational inference (VI) använder vi en approximativ fördelning för att representera den sanna fördelningen. Ett vanligt tillvägagångssätt är att använda en unimodal fördelning, ofta en Gaussisk fördelning, för att approximera den sanna posteriordistributionen. Detta kan göras genom att använda en andra ordningens Taylorapproximation för att placera den Gaussiska fördelningen runt modet av den verkliga posteriordistributionen. Denna teknik kallas Laplace Approximation (LA). Den är relativt snabb och enkel att implementera, men den är också mindre exakt eftersom den bara matchar modet och inte tar hänsyn till den fullständiga formen på fördelningen.

För att övervinna vissa av begränsningarna med LA och få en bättre approximation, kan vi använda Variational Inference (VI) i kombination med mean-field approximation. Här delas den approximativa posteriordistributionen upp i separata distributioner för varje parameter, vilket gör beräkningarna mer hanterbara. Trots att det här tillvägagångssättet är mer exakt än Laplace Approximation, är det fortfarande datorkrävande och kan vara svårt att använda med stora datamängder. För att hantera detta kan vi använda Stochastic Variational Inference (SVI), där vi arbetar med små datamängder (mini-batcher), vilket gör det möjligt att applicera VI i realtidsapplikationer som robotik, där stora mängder data kan samlas in både offline och online.

En annan strategi är Black-box variational inference (BBVI), som gör det möjligt att använda automatisk differentiering för att approximera de komplexa fördelningarna som ofta krävs i robotapplikationer och andra realistiska miljöer. Här undviks behovet av att ha en analytisk form för posteriordistributionen, vilket gör det enklare att hantera mer komplexa distributionsformer.

Variational autoencoders (VAEs) är ett annat exempel på tillämpning av VI, där ett neuralt nätverk används för att uppskatta parametrarna för den approximativa fördelningen. I VAEs är målet inte att direkt hantera osäkerhet i modellens resultat, utan snarare att lära sig en latent representation av data. Även om VI används här för att approximera den sanna posteriordistributionen, är VAE:s syfte främst att skapa effektiva generativa modeller.

En metod som fungerar på ett annat sätt än VI är Markov Chain Monte Carlo (MCMC), där vi inte antar en specifik fördelning för den posteriorda fördelningen. Istället representeras fördelningen genom att dra prov från den, vilket gör MCMC till en icke-parametrisk teknik. En vanlig metod inom MCMC är Gibbs-sampling, som samplar en parameter åt gången och därför kan vara mer effektiv än andra MCMC-tekniker när vi arbetar med högdimensionella fördelningar.

För att öka effektiviteten när man hanterar stora datamängder, används Stochastic Gradient Langevin Dynamics (SGLD), som uppdaterar parametrarna genom att använda stochastic gradient descent (SGD) och mini-batchar, vilket gör det möjligt att hantera stora dataset och komplexa distributionsmodeller på ett mer effektivt sätt.

En annan metod för osäkerhetsuppskattning är Conformal Prediction (CP), som fungerar som en post-hoc teknik för att uppskatta osäkerheten i en förutbildad modell. Genom att använda en kalibreringsdatamängd och en kvantilvärde, kan vi representera osäkerheten som en uppsättning eller ett intervall. Denna metod kan användas i en rad olika tillämpningar, inklusive bildklassificering och regressionsproblem. Trots sin enkelhet är CP en kraftfull metod och har tillämpningar även i robotik.

För de som vill uppskatta osäkerheten direkt, utan att använda approximationer eller samplingstekniker, finns metoder som Prior Networks (PNs) och Posterior Networks (PostNets), som försöker uppskatta sannolikheten direkt, samtidigt som de bibehåller egenskaperna hos en förutsägande fördelning. Dessa tekniker, som använder flödesdensity-estimatorer, kan hantera komplexa distributionsformer och har använts i autonoma system och andra tillämpningar där osäkerhet är en kritisk faktor.

Det är också viktigt att förstå att alla dessa tekniker för osäkerhetsuppskattning har sina styrkor och svagheter beroende på den specifika tillämpningen. I exempelvis autonoma system är det inte bara osäkerheten som behöver beaktas, utan även hur snabbt och effektivt systemet kan ta beslut i realtid. Därför kan tekniker som BBVI och VI med mini-batchar vara mer användbara än MCMC, där varje provtagning kan vara kostsam och långsam.

Därför, när man arbetar med dessa metoder, är det viktigt att tänka på vilken typ av problem som ska lösas, vilken nivå av osäkerhet som är acceptabel och vilka beräkningsresurser som är tillgängliga.

Hur kan förstärkande inlärning förbättra robotmanipulering och autonoma system?

Forskningen kring förstärkande inlärning (reinforcement learning, RL) har gjort stora framsteg de senaste åren, och särskilt inom områden som robotmanipulering, autonoma fordon och intelligenta system. RL-tekniker används för att lära system hur de ska fatta beslut i osäkra och dynamiska miljöer, där direkt övervakning eller exakta modeller inte alltid är tillgängliga. Ett centralt koncept inom RL är att systemet lär sig genom att utföra handlingar och ta emot feedback i form av belöningar eller straff, vilket gradvis leder till förbättrad prestanda.

Inom robotmanipulering är detta särskilt användbart när det gäller att hantera artikulerade objekt, som till exempel att plocka upp eller placera objekt med händer eller robotarmar. För att lyckas i sådana uppgifter måste systemet förstå objektens dynamik och osäkerhet, vilket ofta innebär att man arbetar med komplexa Partially Observable Markov Decision Processes (POMDPs). Dessa modeller är användbara när det finns begränsad eller ofullständig information om tillståndet i en miljö, vilket är vanligt vid robotmanipulering där perceptionen är osäker.

RL ger också möjlighet att anpassa systemet till nya, okända situationer utan att behöva förprogrammera varje tänkbar scenario. Detta öppnar upp för stora möjligheter inom autonoma system, såsom självkörande bilar, där det är viktigt att kunna fatta beslut baserade på osäkra sensorinformationer och oklara framtida händelser. En sådan teknik möjliggör att autonoma system kan utvecklas för att reagera på komplexa trafikscenarier där det inte finns en enkel lösning för varje situation.

Ett stort utmaning som RL-teknologin måste hantera är "out-of-distribution detection", vilket handlar om att kunna identifiera och anpassa sig till situationer som inte har setts tidigare i träningen. Detta är viktigt i exempelvis självkörande bilar, där en bil kan stöta på en kangaroo i Australien som den inte har tränats på att känna igen, vilket kan leda till allvarliga konsekvenser om bilen inte kan hantera detta. Genom att använda statistiska garantier och probabilistiska metoder kan man utveckla system som inte bara lär sig att utföra uppgifter, utan också kan känna igen när de har för låg säkerhet och be om hjälp eller ta säkrare alternativ.

Ett annat område där förstärkande inlärning gör stor nytta är i uppbyggnaden av dynamiska kartor för robotar som navigerar i föränderliga miljöer. Med hjälp av probabilistiska tekniker kan robotar förutse och reagera på förändringar i miljön i realtid. Detta är särskilt användbart när robotar måste arbeta i öppna, osäkra miljöer där det är omöjligt att ha en exakt representation av världen. Att använda denna typ av tekniker innebär att roboten inte bara lär sig fysiska handlingar, utan också förmågan att förstå omgivningens osäkerhet och göra riskmedvetna beslut.

Förstärkande inlärning erbjuder också en kraftfull metod för att testa och validera autonoma system i simuleringar innan de används i verkliga världen. System som CARLA, en öppen urban körsimulator, gör det möjligt för forskare att testa algoritmer för självkörande bilar under realistiska förhållanden. Dessa simuleringar tillåter snabb iterering och riskfritt experimenterande, vilket är avgörande för att utveckla säkrare och mer robusta system. Det är också möjligt att genomföra "stress testing" för att förstå hur systemet misslyckas under svåra förhållanden och att förbättra den generella tillförlitligheten och säkerheten.

Utöver tekniska framsteg är det också viktigt att förstå de etiska och samhälleliga frågorna som uppstår med den ökande användningen av autonom teknik. När robotar och autonoma system tar beslut, måste dessa system ha en klar och transparent uppsättning regler för att säkerställa att de inte orsakar skada. Detta innebär att det krävs ett ansvar för att förstå de möjliga riskerna med systemens beslut, särskilt i scenarier där människor är direkt involverade, som i självkörande bilar eller när robotar arbetar nära människor.

Slutligen, medan förstärkande inlärning erbjuder enorma fördelar, är det fortfarande en utmaning att effektivt hantera de enorma mängder data och beräkningskraft som behövs för att träna avancerade RL-modeller. Denna tekniska utmaning måste övervinnas för att göra dessa system praktiskt användbara i den verkliga världen. Här kommer utvecklingen av ny beräkningskraft och optimeringstekniker som gör det möjligt att köra RL-algoritmer snabbare och med större precision att spela en viktig roll.