Robotpersepsjon er essensiell for roboter som skal navigere og samhandle i komplekse, dynamiske miljøer. En god persepsjonsevne lar robotene oppfatte og forstå sin omverden, samt deres egen tilstand, på en måte som ligner menneskelig persepsjon. For å oppnå dette, benyttes en rekke sensorer, hvorav de mest relevante for denne typen oppgaver er aktive sensorer som sonar, LiDAR og radar.

Blant disse, har 3D LiDAR-teknologi fått økende oppmerksomhet som et sentralt verktøy i robotpersepsjon. LiDAR, som står for Light Detection and Ranging, benytter laserstråler for å måle avstander til objekter i robotens omgivelser. Denne teknologien kan generere svært presise punktmolsdata (point clouds) som gir en nøyaktig representasjon av miljøet, noe som er kritisk for roboter som skal navigere i menneskefylte eller urbane områder.

For å kunne bruke LiDAR på en effektiv måte i slike komplekse miljøer, er det nødvendig med avanserte metoder for å behandle og analysere de enorme mengdene data som genereres. En av de mest lovende metodene for å forbedre robotens evne til å forstå sitt miljø er adaptiv klynging, en teknikk som ble utviklet av forfatteren av denne studien. Denne metoden gjør det mulig å gruppere dataene fra punktmolnene på en dynamisk måte, tilpasset de ulike scenariene roboten befinner seg i.

Den adaptive klyngingsteknikken skiller seg fra tradisjonelle klyngealgoritmer ved at den ikke bruker statiske parametere, men tilpasser seg etter endringer i miljøet. For eksempel, i et folkerikt miljø med mange bevegelige objekter, kan metoden justere seg for å bedre separere mennesker fra hindringer eller andre objekter som kan blokkere robotens vei. Denne fleksibiliteten gir en stor fordel når man sammenligner teknikken med andre etablerte metoder som ikke tar hensyn til slike dynamiske endringer.

Videre ble det utviklet flere håndlagde egenskaper som kan ekstraheres fra punktmolnene. Disse egenskapene har vist seg å være svært effektive i treningen av menneskemodeller, som igjen hjelper robotene med å skille mellom mennesker og andre objekter i omgivelsene. Dette er viktig for å kunne utføre oppgaver som menneske-robot samhandling, eller for å navigere på en måte som er sosialt kompatibel, der roboten unngår kollisjoner med mennesker.

For å spore mennesker og andre objekter i sanntid, ble det også utviklet en multiorientert tracker som er optimalisert for punktmolndata. Denne trackerens evne til å følge flere mål samtidig, mens den opprettholder høy nøyaktighet, gjør det mulig for robotene å holde oversikt over bevegelige personer eller objekter, selv i et svært dynamisk miljø.

Robotens evne til å forstå og reagere på sin omverden gjennom persepsjon, er derfor en avgjørende faktor for effektiv navigasjon og interaksjon. Spesielt i folkerike eller uforutsigbare miljøer, der robotene må ta hensyn til menneskelig atferd og bevegelse, blir det viktig å benytte metoder som adaptiv klynging og avanserte sporingsalgoritmer. Ved å integrere disse teknologiene kan roboter oppnå bedre situasjonsforståelse og dermed handle mer effektivt og trygt.

Det er viktig å merke seg at den teknologiske utviklingen på området ikke stopper her. I tillegg til forbedringer i eksisterende metoder, er det økende interesse for å integrere flere sensoriske modaliteter, som radar eller akustiske sensorer, for å komplementere LiDAR-teknologien. Dette kan bidra til å gi en enda mer robust persepsjon, spesielt under dårlige siktforhold som tåke eller mørke.

Teknologier som 3D LiDAR og metoder for adaptiv klynging vil i fremtiden kunne bidra til å forbedre robotenes evne til å forstå og samhandle med komplekse, menneskefylte miljøer på en sosialt akseptabel måte, og vil være avgjørende for videre fremgang innen autonom robotteknologi.

Hva er fremtidens utfordringer og muligheter for menneskedeteksjon og sporing ved bruk av 3D LiDAR?

I dette kapittelet har vi undersøkt forskningen på robotpersepsjon, med et spesielt fokus på menneskedeteksjon og sporing ved hjelp av 3D LiDAR-teknologi. Vi startet med å oppsummere de grunnleggende aspektene ved 3D LiDAR, inkludert prinsippene for avstandsmåling, skanningsarkitekturer, fysiske egenskaper, datadyrkning og praktiske bruksområder innen ulike industrier. Deretter ble det presentert en objektdeteksjonsmetode basert på et pipeline-system, som omfatter segmentering av punkt-skyer og objektsklassifisering. For segmenteringen ble metoden «adaptive clustering» utdypet, sammen med «LiDAR Point Cloud Clustering Benchmark Suite», som er designet for å muliggjøre rettferdige prestasjons-sammenligninger mellom ulike teknikker. For objektsklassifiseringen undersøkte vi først håndlagde funksjoner for menneskedeteksjon, før vi utvidet til å inkludere differensiering av biler, syklister og fotgjengere, ved hjelp av læringsmodeller som SVM og RF. Til slutt ble et multi-mål sporing-system beskrevet, med særlig vekt på tilstandsestimering, spesifikt tilpasset for sporing av individer innen punkt-skydata.

Generelt er menneskedeteksjon ved hjelp av 3D LiDAR en av de viktigste teknologiene innenfor mobile roboter, autonom kjøring, smart sikkerhet og mer. De siste årene, med utviklingen av maskinvare og AI-teknologi, har forskningen på dette området gjort raske fremskritt. Til tross for de betydelige fremskrittene er det fortsatt flere utfordringer som gjenstår. Den første utfordringen er at prisene på de høyytelses 3D LiDARene som er i masseproduksjon fortsatt ikke er generelt overkommelige. Dette gjenspeiler, på en måte, betydningen av datasett for å fremme utviklingen av relaterte teknologier. Heldigvis finnes det allerede et betydelig antall datasett tilgjengelig i det vitenskapelige samfunnet, som er til stor hjelp (se Seksjon 2.4). I fremtiden håper vi at flere datasett av høy kvalitet for ulike scenarier og situasjoner vil bli tilgjengelig, spesielt de som er basert på multi-sensor persepsjonssystemer.

En annen utfordring ligger i det faktum at de fleste nåværende 3D LiDARer genererer punkt-skyer som er ganske sparsommelige, noe som gjør det vanskelig å trekke ut effektive trekk for små og fjerne objekter. Dette stiller ikke bare krav til videreutvikling av maskinvare, men åpner også for muligheten til å kombinere 3D LiDAR med andre sensorer, som for eksempel kameraer. Samtidig er det viktig å merke seg at LiDAR-teknologi, på grunn av sine fysiske egenskaper, er følsom for ugunstige værforhold som regn, tåke og snø. Dette utfordrer effektiviteten til systemene, og hvordan man kan modellere og redusere støy forårsaket av vannpartikler i luften, er et viktig forskningsområde som fortsatt trenger mye arbeid.

For å oppnå robust og presis sporing av mennesker i ulike miljøer, er det viktig å forstå at kombinasjonen av forskjellige sensorer kan bidra til å overvinne de enkelte begrensningene som finnes i LiDAR-teknologien. For eksempel kan visuelle data supplere LiDAR-dataene for bedre å kunne identifisere mennesker og andre objekter i både åpne og tett befolkede områder. Denne multimodale tilnærmingen gir systemet bedre evne til å takle vanskelige lysforhold og kan dermed bidra til å forbedre nøyaktigheten og påliteligheten i deteksjon og sporing.

Videre er det et viktig aspekt å vurdere hvordan fremskritt innen kunstig intelligens og maskinlæring kan akselerere utviklingen av menneskedeteksjon og sporing. Maskinlæringsmodeller som bruker store datasett kan i økende grad lære seg å gjenkjenne spesifikke mønstre i menneskebehov, bevegelser og andre spesifikasjoner, som gjør at roboter kan tilpasse seg ulike typer interaksjoner mer effektivt. Den kontinuerlige utviklingen av dyplæring og nevrale nettverk har potensial til å drastisk forbedre ytelsen til sporingsteknologier i praktiske anvendelser.

Når man vurderer de utfordringer og muligheter som følger med teknologien, er det viktig å fokusere på utviklingen av systemer som er både kostnadseffektive og robuste nok til å møte kravene i daglige operasjoner. Dette vil bidra til å akselerere implementeringen av 3D LiDAR-baserte systemer i industrielle, transport- og sikkerhetsrelaterte applikasjoner.

Hvordan unngå "glemming" i robotlæring: Metoder og utfordringer

I moderne robotlæring er det en vedvarende utfordring knyttet til det fenomenet som kalles "katastrofal glemsel". Dette skjer når en robot lærer nye ferdigheter eller oppgaver, men i prosessen glemmer den tidligere ervervede kunnskaper. Flere metoder har blitt utviklet for å motvirke dette problemet og gjøre robotene mer effektive i kontinuerlig læring.

En tilnærming innebærer bruk av nøye utformede regulariseringstap som hindrer glemsel av tidligere tilegnet kunnskap når nye data læres. Dette kan være en effektiv måte å sikre at viktig informasjon ikke blir overskrevet under læringsprosessen. En annen intuitiv metode er å bygge en stor modell der en dedikert del er reservert for hver oppgave. Denne strategien kan implementeres ved å fryse en delt "stamme" av modellen, samtidig som man legger til oppgavespesifikke grener. Dette skiller på en måte gammel og ny kunnskap, men kan føre til en rask økning i modellens størrelse, som kan bli problematisk i praksis.

Det finnes også replay-baserte tilnærminger, der data fra tidligere oppgaver enten lagres eller komprimeres. Ved å gjeninnføre disse lagrede eksemplene under treningen på nye oppgaver, kan man forhindre glemsel. Disse replayede prøvene spiller en avgjørende rolle i felles trening eller tapoptimalisering, og sørger for at tidligere tilegnet kunnskap ikke går tapt. Et annet interessant forslag er "Long Short-Term Online Learning" (LSTOL), en ensemblermetode som kombinerer korttidslærere og en langtidshåndteringsmekanisme. Korttidslærerne er modeller som er i stand til raskt å tilpasse seg nye data uten å lagre læringsprøver. Langtidshåndteringsmekanismen styrer hvilke lærere som skal oppdateres, beholdes eller slettes, og kan til og med opprette nye lærere når det er nødvendig.

LSTOL, som skiller seg fra Long Short-Term Memory (LSTM)-nettverk, fokuserer på læringsstrategi snarere enn nettverksarkitektur. Denne metoden gjør ingen antagelser om den temporale kontinuiteten i læringsdataene og støtter flere typer korttidslærermodeller. Dette gjør LSTOL svært fleksibelt og godt egnet til roboter som opererer i dynamiske, virkelige miljøer, der kravene til sanntidslæring er svært strenge.

I tillegg har fremgangen innen dyp læring ført til betydelige forbedringer i roboters evne til å navigere i sosiale sammenhenger. Samtidig er det fortsatt en stor utfordring å implementere real-time oppdaterbare dyp læringsmodeller på roboter med begrensede ressurser. Dype læringsmodeller krever betydelige mengder beregningskraft og minne, noe som kan være en hindring for innebygde enheter med strenge ressursbegrensninger. En mulig løsning kan være modellkomprimering eller bruken av kraftigere kant-enheter, men fokuset her er på modelloptimalisering – spesifikt på designet av dyp læring som egner seg for online læring (OL).

En interessant tilnærming til dette er å kombinere en tungvektig nettverksstruktur med et lettvektsnettverk. Den tunge modellen gir grunnleggende, robust navigasjonskontroll, mens den lette modellen evaluerer og justerer utdataene fra den tunge modellen for å sikre sosialt akseptable handlinger. Denne lettvektsmodellen oppdateres kontinuerlig basert på en realtidsanalyse av forskjellen mellom robotens bevegelsesmønster og bevegelsene til de menneskene som omgir den. Dermed kan roboten lære nye sosiale kontekster, også når de skiller seg fra de som tidligere er lært.

Autonom prøvegenerering er et annet viktig aspekt ved robotlæring, særlig i scenarier der det er behov for å generere egne læringsdata uten menneskelig tilsyn. En av metodene som er foreslått, er P–N (positiv-negativ) læring, som benytter et sett med moduler: en klynge-detektor, en multi-målsporing, en menneskeklasserer og en prøvegenerator basert på P–N læring. Denne metoden gjør det mulig for roboten å autonomt generere positive og negative prøver som den kan lære av, uten at et menneske trenger å intervenere. Det er imidlertid viktig å merke seg at slike systemer kan være utsatt for feil, som falske positive eller falske negative, som krever at roboten selv korrigerer og lærer fra disse feilene.

P–N læring anvender to eksperter – en positiv og en negativ ekspert – som bidrar til å forbedre den menneskelige klassifikatoren. Den positive eksperten korrigerer falske negative prøver, mens den negative eksperten adresserer falske positive prøver. Dette resulterer i en dynamisk treningssett som kontinuerlig forbedres gjennom iterativ læring. Metoden er effektiv, lett å forstå og vedlikeholde, men den er også begrenset i sin generalisering og kan slite med usikker informasjon.

Samtidig som robotlæring har gjort enorme fremskritt de siste årene, er det fremdeles mange utfordringer knyttet til å utvikle systemer som kan lære effektivt i sanntid under strenge ressursbegrensninger. Det kreves fortsatt innovasjon for å designe dyp læringsmodeller som er både effektive og ressursbesparende, samtidig som de tilpasser seg nye oppgaver og miljøer raskt og pålitelig.

Hvordan utvikling av mobile roboter påvirker navigasjon og interaksjon i dynamiske miljøer

Mobile roboter er et viktig verktøy i utviklingen av autonome systemer, og deres evne til å oppfatte og reagere på omgivelsene er avgjørende for effektiv navigasjon. I et samfunn hvor menneskelige interaksjoner er hyppige og miljøene er i konstant endring, er det viktig at roboter kan navigere trygt og effektivt samtidig som de tilpasser seg menneskers tilstedeværelse og handlinger.

Et viktig aspekt ved dette er sensorteknologi, som i dagens mobile roboter er utstyrt med flere avanserte sensorer, for eksempel 3D LiDAR. Denne sensorteknologien gir roboter en detaljert forståelse av omgivelsene deres, og lar dem detektere både statiske og dynamiske objekter, inkludert mennesker. Et eksempel på dette kan være en robot som navigerer i et offentlig miljø, der den kontinuerlig oppdaterer sin forståelse av omgivelsene ved hjelp av sanntidsdata fra LiDAR-sensorene. Denne informasjonen kan benyttes til å identifisere og klassifisere mennesker og andre relevante objekter for å kunne navigere sikkert.

Roboter som er utstyrt med flere sensorer, er i stand til å håndtere ulike miljøer og oppgaver. For eksempel kan en runde i et testmiljø være omtrent 5 km lang, inkludert en liten og en stor sløyfe for å sikre en fullstendig lukking av sløyfen i navigasjonen. På den annen side, i et rundkjøringsmiljø, hvor ruten inkluderer ti rundkjøringer av forskjellige størrelser, er kjørelengden for datainnsamling noe kortere, men like fullt krevende for systemet. Slike miljøer krever at roboter har evnen til å tilpasse seg raskt til endringer og ta hensyn til både statiske og dynamiske objekter.

Robotenes evne til å lære fra sine erfaringer, også kjent som online læring, spiller en sentral rolle i deres utvikling. Det finnes flere metoder og rammeverk for online læring som gjør det mulig for roboter å forbedre sine ferdigheter i sanntid uten menneskelig inngrep. Dette er viktig, fordi det gir robotene muligheten til å lære kontinuerlig om nye objekter og situasjoner, slik at de kan opprettholde eller forbedre ytelsen over tid. En slik tilnærming er spesielt nyttig i dynamiske miljøer der det ikke er praktisk å forutse alle mulige scenarier på forhånd.

I tillegg til læring og sensorteknologi, er det viktig å vurdere de etiske og personvernsrelaterte utfordringene knyttet til utviklingen av autonome systemer. I takt med at roboter blir stadig mer integrert i offentlige og private miljøer, oppstår spørsmål om personvern, datainnsamling og hvordan disse systemene påvirker samfunnet som helhet. Når man utvikler testplattformer og datainnsamlingsmetoder for roboter, bør man også tenke på hvordan man beskytter brukerens data og sikrer at robotens handlinger er i tråd med etiske standarder.

For å kunne utvikle roboter som er trygge og effektive i ulike miljøer, er det essensielt å utvikle standarder og testverktøy som kan bidra til å evaluere robotens prestasjoner. Dette kan inkludere metoder for å vurdere robotens evne til å navigere i både kjente og ukjente miljøer, samt hvordan den håndterer interaksjoner med mennesker. Tanken om å etablere slike standarder før den store utviklingen av AI og roboter er viktig for å hindre at teknologiens utvikling skjer uten nødvendige retningslinjer.

I tillegg til den tekniske utviklingen av robotene, er det nødvendig å vurdere de langsiktige konsekvensene av robotens atferd og læring i samspill med mennesker. For eksempel er robotens evne til å tilpasse seg menneskelige sosiale kontekster avgjørende for trygg og sosialt akseptabel navigasjon i offentlige områder. Dette kan innebære at robotene lærer å forstå ulike menneskelige handlinger og preferanser for å navigere på en måte som ikke forstyrrer eller skaper fare for de menneskene de interagerer med.

En viktig utfordring som har blitt diskutert mye i denne sammenhengen, er hvordan robotene kan håndtere flere mål samtidig. Det er vanlig å bruke metoder som kalles "multi-target tracking" for å følge flere objekter samtidig. Dette er viktig i situasjoner hvor roboten må håndtere flere mennesker eller objekter på en gang, som i en folkemengde, uten å miste oversikten. Effektiv implementering av slike systemer krever sofistikerte algoritmer som kan håndtere komplekse data fra sensorer i sanntid.

Det er også viktig å merke seg at utviklingen av mobile roboter ikke bare handler om teknologi, men også om hvordan teknologien kan anvendes på en etisk og ansvarlig måte. Standarder for hvordan roboter skal fungere i forskjellige miljøer bør ikke bare fokusere på effektivitet og presisjon, men også på hvordan de kan operere på en måte som respekterer menneskers rettigheter og velvære. Dette inkluderer å sikre at roboter ikke skaper unødvendige risikoer for personer i deres nærhet, og at de er i stand til å tilpasse seg menneskelige handlinger på en sosialt ansvarlig måte.

Hvordan måle og evaluere ytelsen til flerkoblings roboter i utforskningsoppgaver?

Ytelsesforskjellene mellom forskjellige metoder for koordinering av flerkoblings roboter kan vurderes gjennom evaluering fra et globalt perspektiv. En av de mest brukte metrikene for utforskning er utforskingstid, som måler tiden det tar for et team av roboter å fullføre en gitt utforskning. Definisjonen av denne metrikken er enkel, men presis: Tiden starter når den første roboten begynner å utføre utforskningen, og slutter når en robot har oppnådd en forhåndsbestemt prosentandel av utforskningsinformasjonen, som for eksempel et kart, i det angitte området. Tiden måles i reell klokketid.

Målet med flerkoblings robotutforskning er ofte å minimere den totale utforskningstiden. Men dette er en kompleks utfordring, da det er nødvendig å flytte hver robot til en optimal posisjon som både maksimerer utforskningsområdet (dvs. informasjonsgevinsten) og samtidig reduserer robotbruken (den såkalte "utforskningens kostnad"). Dessverre er dette problemet NP-hard, noe som betyr at det er vanskelig å finne en optimal løsning på en rimelig tid.

I tillegg til utforskningsens tid, må man også vurdere utforskningskostnadene. Denne kostnaden er ofte estimert ut fra distansen som de ulike robotene har tilbakelegger, og kan defineres som summen av avstandene som alle robotene i teamet har reist. Dette blir beregnet med formelen:

Kostnad=i=1ndi\text{Kostnad} = \sum_{i=1}^{n} d_i

hvor did_i er distansen som roboten ii har reist, og nn er antall roboter i teamet. Videre kan utforskningskostnadene også defineres på forskjellige måter, avhengig av brukerens behov, for eksempel ved å inkludere energiforbruk, databehandlingsressurser og kommunikasjon.

Effektivitet er en annen viktig metrik, og den kan defineres som forholdet mellom nyttig output og total input. For utforskning er effektiviteten direkte proporsjonal med mengden informasjon som robotteamet samler fra miljøet, og omvendt proporsjonal med kostnaden som påløper under utforskningen. Formel for effektivitet blir da:

Effektivitet=Akostnad\text{Effektivitet} = \frac{A}{\text{kostnad}}

hvor AA representerer det totale utforskede området. For eksempel, hvis effektiviteten er 1,6, betyr det at for hver gang teamets samlede bevegelse er 1 meter, skal teamet ha utforsket et område på 1,6 kvadratmeter.

Sikkerhet i utforskningsoppgaver er en annen viktig parameter. Kollisjonsforebygging er en grunnleggende nødvendighet for mobile roboter, og risikoen for kollisjoner øker med antallet roboter i systemet. Derfor blir sikkerhetsmetrikkene i flerkoblingssystemer definert som:

Sikkerhet=1i=1nsi/S\text{Sikkerhet} = 1 - \sum_{i=1}^{n} s_i / S

hvor SS representerer en forhåndsdefinert base, og sis_i er antallet kollisjoner opplevd av roboten ii. Jo høyere sikkerhetsverdien er, desto sikrere er flerkoblingssystemet under evaluering.

Videre er det avgjørende å vurdere deteksjonsevnen til robotene, spesielt i forhold til deteksjon av objekter på veien. Objektgjenkjenningsoppgaven innebærer å finne og klassifisere objekter i sensorens dataramme og bestemme deres plassering og kategori. For å måle ytelsen til objektgjenkjenning benyttes flere metrikker, som for eksempel forvirringsmatrise, F-score, Intersection over Union (IoU) og gjennomsnittlig presisjon (AP). Disse metrikene gjør det mulig å vurdere nøyaktigheten av både klassifisering og deteksjon.

Forvirringsmatrisen gir en visuell fremstilling av klassifiseringsresultatene, og det er spesielt nyttig for flervalgsproblemer. Den viser ikke bare hvor godt klassifikasjonen fungerer, men også hvilke klasser som har blitt feilklassifisert. De andre metrikkene, som F-score, IoU og AP, tar i betraktning både presisjon og recall, og de gir et mer omfattende bilde av modellens ytelse.

Spesielt for IoU, som beregner forholdet mellom det predikerte og det sanne objektets område, er det viktig å merke seg at forskjellige objekter kan ha forskjellige IoU-terskler, avhengig av applikasjonen. For eksempel kan en terskel på 50 % være passende for mennesker eller syklister, men for kjøretøy kan en høyere terskel på 70 % være mer passende.

Gjennomsnittlig presisjon (AP) er en annen viktig metrik som gir et mål for hvordan en modell rangerer positive eksempler i forhold til negative. Den måler arealet under presisjons-recall kurven, og en høyere AP-verdi indikerer en bedre balanse mellom presisjon og recall.

Når man vurderer ytelsen til flerkoblings roboter, er det viktig å ha en helhetlig tilnærming. Det er nødvendig å balansere tid, kostnad, effektivitet, sikkerhet og deteksjonsnøyaktighet for å oppnå en optimal utforskning. Alle disse metrikene gir verdifull informasjon som kan hjelpe til med å justere og forbedre robotteamets samhandling, og sørge for at oppgavene utføres både raskt og nøyaktig.