För att genomföra experimentella tester och utvärderingar inom robotteknik är det nödvändigt att ha en väl definierad plattform för benchmarking. En sådan plattform möjliggör systematisk insamling, bearbetning och analys av data som är avgörande för att validera nya algoritmer och tekniker inom robotik. Ett exempel på detta är användningen av simuleringsplattformar för att utföra tester på multi-robot system, som illustreras genom ett exempel på en experimentdesign för ett multi-robot utforskningsuppdrag.

Designen av ett experiment kan inkludera en detaljerad tabell som beskriver alla aspekter av experimentet, från det valda experimentella miljöer och robottyper till specifika parametrar för experimentupprepningar och datautvärdering. Detta ökar inte bara experimentens transparens, utan gör också resultatet reproducerbart och replikerbart, vilket är viktigt för vetenskaplig validitet.

Reproducerbarhet innebär att om en annan forskare, exempelvis experimenterare B, genomför samma test under olika omständigheter men kommer fram till samma slutsats, anses experimentet vara reproducerbart. Detta är en grundläggande aspekt av vetenskaplig forskning eftersom det säkerställer att resultaten inte är slumpmässiga eller beroende av experimentets specifika omständigheter. Replikerbarhet däremot handlar om att upprepade experiment ger nästan exakt samma resultat. För att uppnå detta krävs oftast att testbänken, både mjukvaru- och hårdvarukonfigurationer, är identiska.

Som ett exempel kan vi titta på designen av ett multi-robot utforskningsexperiment. Här definieras en simulerad miljö med hjälp av plattformen MORSE och en robotplattform, Pioneer 3-DX. Experimentet genomförs med olika antal robotar, där alla möjliga kombinationer testas för att säkerställa en omfattande analys av algoritmer för kartläggning och utforskning. Med denna typ av testdesign är det också möjligt att analysera resultat statistiskt och visualisera dem med hjälp av grafiska verktyg såsom precision-recall kurvor, vilket ger insikt i algoritmernas effektivitet och prestanda.

För att genomföra sådana experiment effektivt krävs en robust testbänk. En testbänk kan bestå av flera komponenter, inklusive både fysiska robotar och simuleringar. Ett exempel på en sådan plattform är utvecklingen av en simulerad testbänk som automatiserar hela benchmarkingprocessen. Här används en fysikmotorbaserad simulator som MORSE, ett robotoperativsystem (ROS) för mjukvaruinteraktion och ett datorkluster för att köra simuleringarna i realtid. Denna typ av automatisering minskar behovet av mänsklig inblandning och gör det möjligt att genomföra storskaliga tester med ett flertal robotar, vilket sparar tid och resurser.

Plattformens arkitektur består av flera samverkande enheter, där simulatorn och experimentmonitoren är ROS-noder som körs på en arbetsstation utrustad med högpresterande processorer och grafikkort. De robotstyrsystem som används i experimenten distribueras över ett datorkluster med upp till 70 datorer som kan hantera realtids simulering av stora robotteam. Detta möjliggör effektiv dataöverföring och simulering av ett stort antal robotar samtidigt, där datatrafik och bandbredd anpassas till experimentets omfattning.

En viktig aspekt av plattformar som dessa är interkommunikationen mellan simulatorer och robotstyrsystem. För att säkerställa korrekt och realistisk funktionalitet måste simulatorn kunna överföra sensorinformation till robotarnas styrsystem och samtidigt ta emot kontrollkommandon från dem. Dessutom är kommunikationen mellan robotarna avgörande för att koordinera deras beteende och dela information om exempelvis kartläggning och lokalisering.

Utöver simuleringar är användningen av verkliga dataset också en viktig del av benchmarking inom robotteknik. Ett exempel på ett sådant dataset är EU:s långsiktiga dataset som har utvecklats för att utvärdera robotperception och inlärningsmetoder. Detta dataset samlades in med hjälp av en sensorplattform designad för autonom körning och innefattar en multimodal sensoruppsättning, vilket skiljer sig från traditionella system som enbart använder kameror. Sensornas mångfald gör det möjligt att uppnå högre precision i perceptionen, vilket är kritiskt för både navigering och interaktion med omvärlden.

Ett exempel på en sådan sensorplattform är UTBM RoboCar, som använder en kombination av stereokameror, lidar-sensorer och fisheye-kameror för att fånga en omfattande bild av omgivningen. Lidar-sensorer som Velodyne HDL-32E ger detaljerad information om avstånd och 3D-struktur, medan fisheye-kameror och stereokameror gör det möjligt att täcka ett större synfält och fånga snabb rörelse utan distorsion. Denna typ av sensorintegration skapar redundans och förbättrar robotens förmåga att hantera komplexa miljöer, vilket är avgörande för autonomi och beslutsfattande i realtid.

För att kunna genomföra benchmarking på ett effektivt sätt krävs en noggrant konstruerad och detaljerad datainsamling och analysplan. Detta innefattar allt från att definiera specifika parametrar för experimentet, såsom antalet robotar och de tekniska specifikationerna för sensorer, till att skapa metoder för att säkerställa att resultaten kan reproduceras och replikerbarhet kan uppnås. Ju mer detaljerat och metodiskt testplattformen och experimenten utformas, desto större är chansen att man kan uppnå meningsfulla och användbara resultat som kan bidra till utvecklingen av mer avancerade och effektiva robotteknologier.

Hur 3D Lidar Förbättrar Robotars Perception och Navigation i Dynamiska Miljöer

3D Lidar-teknologi, som bygger på Time-of-Flight (ToF)-principen, har fått ett allt större genomslag inom både forskning och industri, särskilt för robotar som opererar i komplexa och dynamiska miljöer. Det här avsnittet fokuserar på hur denna teknik används för att förbättra robotars förmåga att uppfatta sin omvärld och navigera effektivt. Lidar, som står för Light Detection and Ranging, använder laserljus för att mäta avstånd och skapa detaljerade 3D-bilder av omgivningen. Denna teknologi har blivit allt mer populär, inte bara för sitt högre precision i avståndsmätning utan också för att kunna skapa realtidsavbildningar av objekt i robotens närhet.

Användningen av lidar-teknologi började som ett sätt att ge robotar bättre möjlighet att förstå sin omgivning genom att skapa noggranna geometriska representationer. En betydande utveckling inträffade med lanseringen av 3D lidar, som inte bara ger en horisontell bild, utan också en vertikal dimension, vilket gör att roboten kan skapa mer detaljerade och omfattande kartor av sin omgivning. Till exempel erbjuder Robosense Ruby Plus ett 360 graders synfält horisontellt och ett vertikalt synfält på 40 grader, med en räckvidd på upp till 250 meter.

Denna ökning i datakapacitet gör att forskare och ingenjörer kan använda lidar för mer komplexa uppgifter, som att spåra och upptäcka människor i stora offentliga miljöer, till exempel flygplatser eller köpcentrum. I dessa miljöer krävs det inte bara en noggrann kartläggning av objekt utan även realtidsinformation om rörelser och hinder, vilket är avgörande för robotars autonomi.

Lidar fungerar genom att en laseravkännare sänder ut ett pulserande ljus som reflekteras tillbaka från omgivande objekt. Genom att mäta hur lång tid det tar för ljuset att reflekteras tillbaka, kan avståndet till objektet beräknas. Denna process är mycket noggrann och snabb, vilket gör det möjligt för robotar att reagera på förändringar i miljön i realtid. Eftersom lidar mäter ljusets tidsfördröjning, kan systemet också skapa en exakt 3D-punktmoln som representerar objekt och hinder.

För att få en bättre förståelse för hur lidar fungerar, kan man dela upp teknologin i olika typer av system. Den mekaniska lidar-teknologin, som använder roterande laserstrålar för att skapa en fullständig 360-graders vy, är en av de mest etablerade. Denna typ av lidar ger hög noggrannhet men är också större och dyrare, vilket gör den mindre lämpad för användning i vissa situationer, såsom på mindre robotar. Den semi-solid-state teknologin är en mellanlösning, där laserstrålarna är fasta men fortfarande kan rotera. Denna teknik erbjuder lägre kostnader och bättre stabilitet, även om synfältet är något begränsat. Solid-state lidar, som inte har några rörliga delar, är den mest kompakta och kostnadseffektiva lösningen, men har fortfarande vissa begränsningar i räckvidd och noggrannhet.

En annan faktor som påverkar lidarens effektivitet är det fysiska fenomenet som styr hur laserstrålarna interagerar med objekt. Lidarens precision beror på flera faktorer, bland annat objektets reflekterande förmåga och ljusets förlust i atmosfären, vilket gör att signalbehandling spelar en viktig roll för att korrekt tolka de mottagna signalerna.

Förutom Time-of-Flight lidar, utvecklas också en alternativ teknologi, Frequency Modulated Continuous Wave (FMCW) lidar, som är lovande för att ge mer stabila och tillförlitliga mätningar än ToF-lidar. FMCW lidar mäter inte bara tidsdifferensen mellan utsändning och återkomst av signalen utan även frekvensskillnaden, vilket gör att systemet kan erbjuda ännu större noggrannhet i vissa situationer. Men även denna teknik är under utveckling och kräver ytterligare förbättringar för att kunna användas brett i industriella tillämpningar.

En annan viktig aspekt av lidar är dess förmåga att skapa detaljerade och precisa 3D-modeller av omvärlden. Det gör att robotar kan upptäcka hinder, människor eller objekt även i komplexa miljöer. Detta gör 3D lidar särskilt användbart för autonom körning och robotar som arbetar i öppna miljöer, som utomhusområden eller inomhus där människor rör sig kontinuerligt. Att skapa pålitliga 3D-modeller är en grundförutsättning för att en robot ska kunna navigera effektivt och säkert i sin omgivning.

Förutom de tekniska aspekterna är det viktigt att förstå att lidar inte är en universallösning. I dynamiska och ständigt föränderliga miljöer kan andra sensorer, som kameror eller radarsystem, behövas för att komplettera lidarens data. Kombinationen av olika sensorer kan ge roboten en mer omfattande förståelse av sin omvärld, vilket är avgörande för att kunna fatta beslut och agera självständigt.

Med denna förståelse blir det tydligt att lidar är en nyckelkomponent i framtida robotteknologi, men även om teknologin är kraftfull och erbjuder stora fördelar, finns det fortfarande många utmaningar som måste övervinnas för att utnyttja dess fulla potential.

Hur påverkar olika klusteringsmetoder prestanda i robotperception?

Prestandan hos olika klusteringsmetoder för punktmoln är avgörande för att förbättra roboters förmåga att förstå och tolka sin omgivning. I robotperception används dessa metoder för att identifiera och gruppera relevanta punkter i 3D-rum, baserat på deras positioner och relationer till andra objekt. En av de mest kritiska aspekterna av dessa metoder är hur väl de hanterar variationer i data, som kan uppstå på grund av olika omständigheter såsom objektens storlek, avstånd eller komplexiteten i bakgrunden.

När det gäller klustring i 3D-rum har vi flera tekniker som är anpassade för att hantera dessa utmaningar. En av de mest framstående metoderna är den adaptiva klustringstekniken, som har visat sig vara den mest effektiva när det gäller att bearbeta punktmoln som är särskilt stora och komplexa, såsom de i L-CAS-datasetet. Denna metod är effektiv på grund av sin förmåga att direkt beräkna det euklidiska avståndet mellan olika punkter i 3D-utrymmet, vilket leder till en mer exakt klustring. Däremot är djupklustringsmetoden mindre effektiv när objekten är nära varandra och bakgrundsobjekt är större än förgrundsobjekten.

Vid utvärdering av klustringsmetodernas prestanda visar det sig att det finns en tydlig skillnad i deras effektivitet beroende på vilken datamängd de tillämpas på. Till exempel, på EU Long-term och KITTI-dataseten presterar metoder som kör- och djupklustring bättre än de som använder adaptiv klustring, främst på grund av deras förmåga att hantera ojämna vägbanor och sluttande ytor på ett robust sätt.

En annan viktig aspekt är hur markavlägsnande påverkar klustringens prestanda. För att uppfylla realtidskrav i robotiska system tillämpas ofta en tröskelbaserad metod för markavlägsnande, men denna metod förutsätter att marken är jämn, vilket inte alltid är fallet i verkliga miljöer. Experiment har visat att mer sofistikerade markavlägsnande tekniker, som ray ground filter, kan förbättra prestandan för vissa dataset, men också leda till en försämring i andra. Detta beror på att filter kan ta bort delar av människor eller föremål som är viktiga för korrekt klustring.

När det gäller beräkningsprestanda är det tydligt att alla klusteringsmetoder är proportionella mot antalet punkter i punktmolnet, där fler lager lidar-data kräver mer bearbetningstid. Djupklustring visar en stor fördel på grund av sin dimensionella reduktion, medan kör-klustring också har konkurrensfördelar genom att utnyttja tidigare information som ringinformation. Å andra sidan är den adaptiva klustringen snabbare än andra metoder på grund av sin användning av ringbaserad uppdelning av punktmoln, vilket minskar den tid som behövs för att söka igenom hela molnet.

För att uppnå högsta prestanda vid klustring är det också viktigt att förstå användningen av handgjorda funktioner för objektklassificering i punktmoln. Funktionerna i tabellen ger en mängd olika sätt att analysera och klassificera objekt baserat på deras geometriska egenskaper och förhållandet till sensorn. Denna funktionalitet är särskilt viktig för robotar som behöver göra snabba och exakta klassificeringar för att navigera i omgivningen, särskilt vid detektering av människor och fordon.

En av de mest intressanta funktionerna är slice-distance, som erbjuder en metod för att klassificera sparsamma punktmoln på längre avstånd. Genom att dela in punktmolnet i olika lager och beräkna avståndet mellan centroids i varje lager, kan denna funktion ge en mer exakt representation av objektets form och storlek. Detta är särskilt användbart vid detektion av människor i komplexa och varierande miljöer.

För att ytterligare förbättra klassificeringen används ofta icke-linjära klassificerare som Support Vector Machines (SVM) eller Random Forest (RF). Dessa modeller är väl lämpade för att hantera 3D-punktmoln eftersom de kan hantera de komplexiteter som uppstår på grund av objektens form, storlek och orientering. SVM, till exempel, är särskilt användbar i sammanhang där det finns begränsade träningsdata, medan RF är mer lämplig för långsiktig anpassning och online-träning.

Slutligen är det viktigt att notera att medan de tekniska framstegen inom robotperception har gjort det möjligt för robotar att effektivt detektera och klassificera objekt, finns det fortfarande utmaningar kvar att lösa. Dessa inkluderar att hantera occlusion (när objekt är delvis täckta), sparsamma punktmoln, och dynamiska förändringar i omgivningen. För att uppnå robusta resultat i verkliga tillämpningar krävs det en kombination av avancerade klustringsmetoder, noggrant utvalda handgjorda funktioner och effektiva lärandealgoritmer.

Hur kan LSTOL-ramverket hjälpa till att motverka katastrofal glömska i robotlärande?

I långsiktigt robotlärande (ROL) uppstår katastrofal glömska typiskt sett i två scenarier: en ökning av antalet klasser eller uppgifter som måste läras, samt en förändring i kunskapsdomänerna. Det är just denna senare utmaning som adresseras genom LSTOL-ramverket, vilket är utformat för att anpassa en modell till nya datadistributioner utan att förlora den kunskap som redan har inhämtats från tidigare domäner.

LSTOL-ramverket består av en uppsättning kortsiktiga inlärningsmodeller och en långsiktig controller. Varje kortsiktig inlärningsmodell kan implementeras som en sådan modell som Support Vector Machine (SVM), Random Forest (RF) eller Deep Neural Networks (DNN), och lär sig från strömmande data från olika modaliteter, som bilder eller punktmoln. Den långsiktiga controllern övervakar inlärningsprocessen för de kortsiktiga modellerna och utför tre huvudfunktioner:

  1. Informationsinsamling: Samlar in information om de kortsiktiga modellerna, inklusive deras aktuella resultat, noggrannhet och aktivitet på efterföljande uppgifter. Denna information ligger till grund för beslut om kunskapsbevarande och införskaffande av ny kunskap.

  2. Gate Control: Genom att utvärdera den insamlade informationen och de förutsagda sannolikheterna från de kortsiktiga modellerna, avgör denna funktion de lämpliga åtgärderna för ramverket. Dessa åtgärder kan vara att behålla, uppdatera eller ta bort befintliga modeller eller skapa nya.

  3. Viktbedömning: Justerar dynamiskt vikterna för varje kortsiktig modell baserat på dess tidigare prestationer. En modell som har hög noggrannhet på en uppgift får ökat inflytande (dvs. högre vikt) på den uppgiften. Modeller som visar hög förutsägelsekonfidens fungerar som "experter" och avgör primärt den slutgiltiga förutsägelsen.

Ramverket fungerar på ett "learn-as-you-go"-sätt, där den långsiktiga controllerns resultat kan användas direkt för efterföljande uppgifter, som till exempel objektidentifiering.

I praktiken implementeras LSTOL på uppgifter som detektion av vägtrafikanter i punktmoln från en självständig bil, vilket innebär att varje detektion från olika detektorer (t.ex. punktmolnsbaserade och bildbaserade) samlas och analyseras för att bestämma objektets klass. Om en detektor exempelvis ibland klassificerar en bil som en cyklist (på grund av initialt dålig prestanda), men om majoriteten av rätt klassificeringar från andra detektorer indikerar att det handlar om en bil, kommer hela spåret att märkas som en bil.

En viktig del av detta system är det faktum att den långsiktiga controllern gör det möjligt att justera och optimera inlärningen kontinuerligt, samtidigt som den bevarar den viktiga kunskap som tidigare har inhämtats. Detta gör det möjligt att undvika katastrofal glömska, där ny information ofta åsidosätter och förlorar tidigare lärande.

I den kortsiktiga inlärningsmodulen används metoder som ORF (Online Random Forest) för att snabbt träna modeller för flera klasser och för att implementera dem i realtid. Varje kortsiktig modell samlar och väger sina resultat baserat på sina tidigare prestationer, och den långsiktiga controllern fusionsstrategi avgör det slutgiltiga resultatet.

Den långsiktiga controllern är också utrustad med en Informationsinsamlaren, som på grund av avsaknaden av "ground truth" i ROL-systemet använder sig av online-mätvärden som konfidens, noggrannhet och aktivitet för att utvärdera prestandan hos varje inlärningsmodell. Detta tillvägagångssätt gör det möjligt att dynamiskt hantera lärandet och därmed minska risken för katastrofal glömska.

Detta ramverk ger också ett unikt sätt att extrahera lärandeprover från den strömmande data som genereras av sensorer som 3D-lidar på en självkörande bil. Dessa prover samlas in över tid och organiseras som spår av objekt som detekteras vid olika tidpunkter. Genom att smälta samman förtroendet från olika sensorer och detektorer kan objektet klassificeras på ett robust sätt, och en korrekt förutsägelse görs även i fall av osäkra eller felaktiga detektioner från vissa sensorer.

Denna metod gör det också möjligt att kombinera olika lärandemodeller (t.ex. SVM, RF, DNN) och applicera dem på nya domäner utan att förlora den redan inhämtade kunskapen. Detta är avgörande för att säkerställa att robotar och självkörande system inte bara lär sig nya uppgifter effektivt utan också bibehåller sin förmåga att hantera äldre uppgifter.

Det är viktigt att förstå att denna metodik inte handlar om att enbart optimera en enskild modell utan om att skapa ett ramverk som kan hantera och anpassa flera modeller dynamiskt. Genom att aktivt styra och justera vilken modell som är mest relevant för en viss uppgift vid en viss tidpunkt kan systemet bevara och bygga vidare på sina tidigare lärdomar samtidigt som det tillåts anpassa sig till föränderliga omständigheter.