Współczesne badania nad robotyką mobilną wymagają skutecznych metod oceny i porównania wydajności różnych algorytmów i technologii. Kluczowym elementem takich badań jest stworzenie platformy benchmarkowej, która umożliwia dokładne i wiarygodne testowanie. Tworzenie testów tego typu, zarówno w kontekście rzeczywistych robotów, jak i symulacji, wymaga precyzyjnego zaplanowania eksperymentów, odpowiedniego zbierania danych oraz rzetelnej analizy wyników. W tej części przyjrzymy się, jak zbudować platformę do testowania robotów mobilnych oraz jakie wyzwania stoją przed badaczami, którzy zajmują się benchmarkingiem.

Podstawowym celem każdego procesu benchmarkowania jest zapewnienie obiektywnej i porównywalnej oceny różnych systemów. Aby osiągnąć ten cel, eksperymenty muszą być zaplanowane w sposób, który pozwoli na jednoznaczne zrozumienie wyników. Do tego celu służą szczegółowe tabele eksperymentalne, w których uwzględnia się wszystkie istotne parametry eksperymentu. Przykładem takiej tabeli może być projekt eksperymentu dotyczącego zadania eksploracji w kontekście multi-robotów. W tabeli zawarte są takie dane jak liczba robotów, algorytmy używane do łączenia map, liczba powtórzeń eksperymentu, kryteria zakończenia eksperymentu oraz plan pozyskiwania danych. Kluczowym aspektem jest także zaprezentowanie wyników w sposób ułatwiający porównanie – zarówno za pomocą wykresów (np. krzywej precyzji i czułości), jak i rankingów.

Ważnym zagadnieniem w kontekście benchmarkingowych eksperymentów jest rozróżnienie pomiędzy reprodukowalnością a powtarzalnością. Reprodukowalność oznacza, że po przeprowadzeniu eksperymentu w innych warunkach przez innego badacza, wyniki powinny być podobne. Jeśli inny badacz przeprowadza eksperyment w nowym środowisku i uzyskuje te same wnioski, eksperyment uważa się za reprodukowalny. Powtarzalność natomiast odnosi się do tego, czy po wielokrotnym przeprowadzeniu tego samego eksperymentu, wyniki będą się powtarzać z minimalnymi odchyleniami. Powtarzalność jest bardziej wymagająca, gdyż wymaga identycznych platform do benchmarkingu, w tym tych samych konfiguracji sprzętowych i programowych.

Podstawą każdego benchmarkingu jest stworzenie odpowiedniego testbedu – platformy, która pozwala na przeprowadzenie eksperymentów z wykorzystaniem robotów, symulatorów lub zbiorów danych. Dobrym przykładem jest testbed stworzony do benchmarkowania zadań eksploracyjnych z wykorzystaniem wielu robotów, w którym wykorzystano symulator MORSE oraz system ROS jako interfejs robota. Z punktu widzenia inżynieryjnego testbed ten automatyzuje proces benchmarkingu, generując wyniki bez potrzeby ludzkiej interwencji.

Kluczowym elementem takiego testbedu jest sposób komunikacji pomiędzy jego komponentami: symulatorem, monitorami, robotami oraz sterownikami. Komunikacja ta odbywa się poprzez model publish-subscribe w ramach systemu ROS. Komunikacja między robotami jest zależna od wybranego sposobu koordynacji, może obejmować wymianę map lub informacji o lokalizacji. Zgodność między symulacjami a rzeczywistymi eksperymentami zapewnia użycie tego samego oprogramowania sterowników, zarówno w przypadku robotów fizycznych, jak i w symulacjach.

Zbieranie odpowiednich danych jest także kluczowe w kontekście tworzenia platform do benchmarkingu. Dane muszą być gromadzone zgodnie z zaplanowaną strategią, aby zapewnić ich odpowiednią jakość i dokładność. Zbieranie danych na temat eksplorowanej powierzchni, czasu potrzebnego na eksplorację oraz jakości mapy pozwala na stworzenie pełnego obrazu efektywności danego algorytmu.

Rozwój takich platform jest niezbędny do rozwoju robotyki mobilnej. Przykładem jest długoletni zbiór danych EU, który wykorzystywany jest do oceny metod percepcji i uczenia maszynowego w kontekście robotów autonomicznych. Zbiór ten jest efektem współpracy różnych zespołów badawczych i obejmuje dane zebrane za pomocą zaawansowanego systemu percepcyjnego, który integruje różne czujniki, w tym kamery stereoskopowe, lidary 3D oraz kamery fisheye. Celem takiej różnorodności czujników jest maksymalizacja pokrycia percepcyjnego i redundancja sensoryczna, co jest szczególnie istotne w kontekście pojazdów autonomicznych.

Dla zapewnienia odpowiedniej jakości danych, czujniki muszą być starannie dobrane, a ich rozmieszczenie w pojazdach – precyzyjnie zaplanowane. W przypadku platformy RoboCar, czujniki takie jak lidary, kamery stereoskopowe i kamery fisheye umieszczone są w taki sposób, aby zapewnić pełne pokrycie obszaru wokół pojazdu, minimalizując martwe strefy, które mogłyby wpłynąć na jakość percepcji. Tego rodzaju infrastruktura testowa jest niezbędna do oceny skuteczności algorytmów percepcyjnych w trudnych warunkach rzeczywistych.

Wszystkie te aspekty – zarówno projektowanie eksperymentów, tworzenie platform testowych, jak i zbieranie danych – mają na celu jedno: umożliwienie wiarygodnego porównania technologii i algorytmów w robotyce mobilnej. Tylko w ten sposób możliwe jest wyciąganie prawdziwych, obiektywnych wniosków, które mogą prowadzić do dalszego rozwoju tej dziedziny.

Jak skutecznie porównywać algorytmy w robotyce mobilnej?

Współczesna robotyka mobilna stoi przed fundamentalnym wyzwaniem: jak efektywnie mierzyć postęp w warunkach, które nie są w pełni kontrolowalne, a dane pochodzą z różnorodnych źródeł i konfiguracji sprzętowych. Istotą problemu nie jest wyłącznie zbieranie danych, lecz ich właściwa organizacja, synchronizacja oraz reprezentacja, która umożliwi uczciwe i porównywalne testowanie różnych metod.

Jednym z najważniejszych zestawów danych pozostaje KITTI – punkt odniesienia dla metod opartych na wizji komputerowej w autonomicznej jeździe. Mimo swojej wartości, nie oddaje on jednak pełnej złożoności zadania, jakim jest rzeczywiste prowadzenie pojazdu autonomicznego. KITTI oferuje precyzyjnie oznaczone dane z kamer i lidarów, ale ogranicza się do wybranych scenariuszy, pór dnia oraz warunków pogodowych. W dodatku sposób oznaczania chmur punktów – bazujący na projekcji obrazów 2D – może prowadzić do nadmiernego dopasowania modeli pod konkretne cechy zbioru.

Kontrastując z tym, zbiór Waymo reprezentuje kolejny etap rozwoju. Dane zarejestrowane są w sposób ciągły, zsynchronizowany sprzętowo, co pozwala na analizę kontekstu czasowego – kluczowego w takich zadaniach jak predykcja trajektorii czy śledzenie obiektów. Różnorodność środowisk – od miast po przedmieścia, zmienność oświetlenia i warunków pogodowych – czyni ten zbiór szczególnie atrakcyjnym. Mimo to, klasyfikacja obiektów pozostaje uproszczona – motocykle traktowane są jako pojazdy, a hulajnogiści jako piesi – co ogranicza granularność semantyczną analiz.

Równocześnie obserwujemy rosnącą zależność badań od rankingów benchmarkowych. Publiczne zestawienia wyników – choć użyteczne – prowadzą często do efektu przeuczenia. Algorytmy optymalizowane są nie tyle pod kątem generalizacji, co pod konkretne metryki konkretnego zbioru danych. Klasyczny przykład to różnice między KITTI a L-CAS: pierwszy zawiera rozmiary obiektów, drugi nie. Algorytm uczony na KITTI może osiągać lepsze wyniki dzięki tej informacji, ale jego skuteczność spada, gdy dane wejściowe nie zawierają rozmiaru – co obnaża problem nadmiernego dopasowania.

Pojawia się więc pytanie: czy AI może samo oceniać AI? Koncepcja znana jeszcze z czasów testu Turinga nabiera dziś nowego znaczenia. Symboliczne podejścia oferują przejrzystość i logikę, ale zawodzą w odwzorowaniu reprezentacji sensorycznych. Z kolei podejścia konnekcjonistyczne – oparte na głębokich sieciach neuronowych – osiągają imponujące wyniki, lecz są nieinterpretowalne. To, co widzimy dziś jako najbardziej obiecujące, to fuzja obu podejść: logiczna analiza wspierana percepcyjnym wyczuciem. Takie hybrydowe modele umożliwiają nie tylko wyższy poziom wydajności, ale również odpowiadają na potrzebę uzasadniania decyzji podejmowanych przez systemy autonomiczne.

W badaniach nad oceną społecznej akceptowalności nawigacji robotów, wykorzystano korelację pomiędzy metrykami RCM i HCM, aby – w braku informacji od ludzi – oszacować reakcje emocjonalne człowieka wyłącznie na podstawie danych statystycznych. Przyszłość może leżeć w budowaniu takich funkcji zależności z użyciem sieci neuronowych, co jednak wymagać będzie nowych metod pozyskiwania danych o ludzkiej percepcji i reakcji.

Niezbędne jest również głębsze zrozumienie, że benchmarking to nie tylko porównanie wyników, ale konstrukcja całego środowiska eksperymentalnego – włączając w to definicje parametrów, metryk oraz sam projekt eksperymentu. W erze intensyfikacji pracy nad uczeniem online, adaptacją między domenami czy modelowaniem scenariuszy skrajnych, kluczowe staje się tworzenie danych, które nie tylko są wielowymiarowe, ale również trwałe, reprezentatywne i etycznie przygotowane – poprzez anonimizację twarzy i tablic rejestracyjnych.

Dobrze zaprojektowane dane nie tylko odzwierciedlają rzeczywistość – one ją współtworzą. Właściwa synchronizacja sensorów, reprezentacja przestrzenna, różnorodność semantyczna i warunkowa – to wszystko staje się fundamentem dla przyszłości robotyki mobilnej, która nie będzie opierać się na schematycznym rozpoznawaniu, lecz na głębokim, zniuansowanym rozumieniu otoczenia.

Ważne jest, aby czytelnik zrozumiał, że skuteczne benchmarkowanie w robotyce mobilnej wymaga nie tylko zaawansowanych algorytmów, ale także krytycznego podejścia do samych danych, ich jakości, sposobu synchronizacji oraz metod anotacji. Bez tego, każdy wynik, choćby najwyższy w rankingu, może okazać się iluzoryczny w rzeczywistych warunkach działania autonomicznego systemu.

Jakie wyzwania stawia uczenie maszynowe robotów mobilnych online?

Uczenie maszynowe robotów mobilnych, szczególnie w kontekście operacji online, napotyka szereg istotnych wyzwań, które wynikają zarówno z ograniczeń technicznych, jak i z specyfiki środowisk, w jakich roboty operują. Chociaż tradycyjne metody offline, w których model jest trenowany na podstawie zbioru danych przed wdrożeniem, stanowią fundament wielu systemów, to jednak ich zastosowanie w kontekście długoterminowego, autonomicznego działania robotów w rzeczywistych warunkach staje się coraz mniej efektywne. Problemy te są związane z dużymi kosztami ludzkimi, które wiążą się z gromadzeniem i adnotowaniem danych, a także z problemem ciągłej aktualizacji modeli, który jest niezbędny do utrzymania ich skuteczności w długoterminowej perspektywie.

Offline'owe modele uczenia maszynowego nie są w stanie wspierać autonomicznej, długoterminowej pracy robotów mobilnych, ponieważ w każdej chwili mogą wystąpić sytuacje, których robot nigdy wcześniej nie napotkał, takie jak przypadki brzegowe, problemy związane z długim ogonem danych czy zmiany domeny. Nawet najbardziej szczegółowa definicja domeny operacyjnej (ODD, Operational Design Domain) nie jest w stanie przewidzieć wszystkich możliwych scenariuszy, które mogą wystąpić w rzeczywistości. Typowym przykładem są nietypowi uczestnicy ruchu drogowego, których detekcja może stanowić wyzwanie dla pojazdów autonomicznych, co obrazuje przykład z wykresu 4.1, gdzie roboty napotykają trudności w wykrywaniu rzadkich lub nietypowych obiektów. To tylko jedno z wielu wyzwań, z którymi borykają się roboty w dynamicznych, zmiennych środowiskach.

Przechodząc do wyzwań związanych z uczeniem online robotów, można wyróżnić dwa kluczowe aspekty: automatyczne pozyskiwanie próbek z danych sensorycznych oraz niwelowanie problemu katastrofalnego zapominania w długoterminowym uczeniu online. Pierwszy z tych problemów dotyczy sposobu, w jaki roboty pozyskują i przetwarzają dane ze swoich czujników – kamer, lidarów czy innych urządzeń. Wymaga to umiejętności wydobycia informacji o interesujących obiektach, takich jak ich lokalizacja i kategoria, co staje się wyzwaniem w skomplikowanych i dynamicznych środowiskach, takich jak ruch drogowy czy jadalnie na uniwersytetach. Dodatkowo, dane pochodzące z lidarów 3D, które charakteryzują się rzadkością danych i brakiem łatwych do rozpoznania cech, takich jak kolor czy tekstura, tylko potęgują trudności w automatycznym pozyskiwaniu próbek.

Drugim istotnym wyzwaniem w uczeniu online jest zjawisko katastrofalnego zapominania, które pojawia się, gdy aktualizacja modelu w trakcie uczenia na nowych próbkach powoduje pogorszenie wydajności na wcześniej poznanych danych. Zjawisko to jest szczególnie problematyczne w kontekście robotów mobilnych, które muszą działać w długim okresie czasu w różnorodnych warunkach, co prowadzi do konieczności dostosowywania się do zmieniających się zadań i sytuacji. Badania nad katastrofalnym zapominaniem wciąż są jednym z najistotniejszych obszarów w uczeniu maszynowym, szczególnie w dziedzinie głębokiego uczenia, mimo że istnieje wiele prób rozwiązania tego problemu, które nie zawsze znajdują zastosowanie w robotyce mobilnej z powodu ograniczeń zasobów obliczeniowych i pamięciowych.

Równocześnie wyzwaniem staje się integracja technik głębokiego uczenia z uczeniem online, które wymaga wydajnych i szybkomodulujących się metod w warunkach ograniczonych zasobów komputerowych, zwłaszcza jeśli roboty mają pracować w czasie rzeczywistym. Przykładem może być wdrażanie sieci neuronowych w ramach robotów mobilnych, które przyciągają uwagę ze względu na swoje możliwości, ale napotykają trudności związane z koniecznością ciągłego dostosowywania modeli do nowych warunków w czasie rzeczywistym.

Dla pełniejszego zrozumienia problematyki robotycznego uczenia online warto porównać je do metod offline i uczenia przyrostowego. Uczenie offline, które jest podobne do programowania robotów przemysłowych, zakłada, że model jest w pełni trenowany przed wdrożeniem i nie zmienia się w trakcie pracy robota. Z kolei uczenie przyrostowe, które może być realizowane zarówno online, jak i offline, polega na przetwarzaniu danych w sposób ciągły, ale bez surowych wymagań związanych z czasem rzeczywistym. Celem uczenia przyrostowego jest przede wszystkim utrzymanie wiedzy z przeszłych zadań i minimalizacja problemu katastrofalnego zapominania. Uczenie online natomiast stawia na autonomiczne, szybkie przyswajanie nowych informacji i zastosowanie ich w czasie rzeczywistym, co jest kluczowe w kontekście robotów mobilnych operujących w dynamicznych warunkach.

W kontekście rozwiązywania problemów związanych z detekcją obiektów w ruchu, jak na przykład w przypadku wykrywania pieszych, wprowadzono różne innowacyjne podejścia, które minimalizują zależność od pełnych, oznakowanych zbiorów danych. Przykładem może być użycie algorytmu Extended Kalman Filter (EKF) do przewidywania pozycji celów i ułatwiania detekcji w kolejnych skanach lidarowych. Inne podejścia, takie jak te zaprezentowane przez Shackletona i jego współpracowników, wykorzystują dopasowywanie powierzchni w celu wykrywania ludzi w skanach lidarowych, natomiast podejście Teichmana wykorzystuje metodę pół-nadzorowaną do klasyfikacji obiektów przy minimalnej liczbie ręcznie oznakowanych przykładów.

Podsumowując, choć rozwój metod uczenia robotów mobilnych online oferuje duży potencjał, to jednak wymaga on przezwyciężenia wielu technicznych i teoretycznych wyzwań, które jeszcze nie zostały całkowicie rozwiązane. Kluczowe w tym procesie jest rozwijanie nowych algorytmów i metod, które pozwolą robotom nie tylko skutecznie uczyć się w czasie rzeczywistym, ale także przystosowywać się do dynamicznie zmieniających się warunków, zachowując przy tym wysoką wydajność i unikając problemów związanych z zapominaniem wcześniej nabytej wiedzy.

Jak zrozumieć potrzebę inteligencji cielesnej w robotach?

Inteligencja cielesna, czyli zdolność do rozumienia i interakcji z otoczeniem za pomocą fizycznych zmysłów i zdolności motorycznych, jest kluczowym aspektem rozwoju robotów mobilnych. Istnieją dwa główne powody, dla których jest ona niezbędna: po pierwsze, roboty, podobnie jak ludzie, muszą mieć zdolność do fizycznego wchodzenia w interakcję ze światem, w którym się znajdują, zakładając, że ten świat nie jest wirtualny. Po drugie, kontekst odgrywa kluczową rolę w zrozumieniu semantycznym, a brak inteligencji cielesnej utrudnia robotom podejmowanie trafnych decyzji na podstawie świadomości sytuacyjnej.

Z filozoficznego punktu widzenia brak zrozumienia ciała prowadzi do braku rzeczywistego istnienia. Warto przypomnieć sobie słowa Kartezjusza: „Myślę, więc jestem” i przeciwstawienie ich twierdzeniu Heideggera: „Jestem, więc myślę”. Ten filozoficzny dylemat może być przełożony na roboty, które w procesie rozwoju muszą nie tylko „myśleć”, ale również „być”, czyli istnieć w fizycznym świecie i wchodzić w interakcje z rzeczywistością, aby stały się w pełni autonomiczne.

Równie ważne jest zrozumienie, że środowisko, w którym roboty operują, zmienia się w różnym tempie — wolno, jak zmiany sezonów, lub szybko, jak ruch pieszy. Bez odpowiedniej zdolności do reagowania na te zmiany roboty będą miały trudności z efektywnym działaniem w rzeczywistym świecie, który nieustannie ewoluuje.

Zatem jednym z głównych celów badań w dziedzinie robotyki jest stworzenie robotów zdolnych do „postrzegania” swojego otoczenia za pomocą zmysłów, które pozwolą im podejmować świadome decyzje i reagować na zmiany w otoczeniu. Technologia ta jest oparta na różnych metodach: od tradycyjnych metod symbolicznych, przez metody statystyczne, aż po metody aktywistyczne, które mają na celu uczynienie robotów bardziej autonomicznymi i zdolnymi do uczenia się w czasie rzeczywistym.

Przykład stanowi zastosowanie lidaru 3D, który pozwala robotom na wykrywanie ludzi i innych obiektów w przestrzeni, tworząc tzw. chmurę punktów 3D. Dzięki tej technologii roboty mogą nie tylko zrozumieć, gdzie znajdują się obiekty, ale także śledzić ich ruchy i podejmować decyzje w czasie rzeczywistym, aby unikać kolizji. Detekcja ludzi w chmurze punktów odbywa się przy użyciu zaawansowanych algorytmów, takich jak SVM (Support Vector Machine) oraz metody związane z analizą danych w czasie rzeczywistym, jak np. GNN (Global Nearest Neighbor) oraz UKF (Unscented Kalman Filter), które pozwalają na śledzenie obiektów w dynamicznie zmieniającym się środowisku.

Kolejnym istotnym zagadnieniem jest uczenie online, czyli zdolność robotów do nauki w czasie rzeczywistym na podstawie danych, które są zbierane przez ich sensory. Roboty muszą być w stanie adaptować się do nowych, wcześniej nieprzewidzianych sytuacji, co stanowi wyzwanie w porównaniu do tradycyjnych metod uczenia maszynowego, gdzie dane są wcześniej przygotowane i oznakowane. Kluczową rolą tego typu nauki jest zdolność do absorbowania nowych informacji oraz utrzymywania pamięci długoterminowej, co umożliwia robotowi adaptację do zmieniającego się świata.

W kontekście tego podejścia istotne jest, aby roboty nie tylko reagowały na swoje otoczenie, ale także przewidywały zmiany i adaptowały swoje zachowanie w zależności od sytuacji. Na przykład, roboty mogą nauczyć się przewidywać obecność ludzi w określonych miejscach i czasie na podstawie analiz statystycznych, takich jak mapy cieplne (heat maps) i histogramy. Ponadto, roboty mogą przewidywać trajektorie ruchu ludzi za pomocą bardziej zaawansowanych technik, jak LSTM (Long Short-Term Memory), które pozwalają na tworzenie modeli predykcyjnych na podstawie długoterminowych danych z deploymentów robota.

Chociaż książka ta koncentruje się głównie na kwestii postrzegania i uczenia się robotów, warto zauważyć, że w kontekście pracy robotów w realnym świecie niezbędna jest również zdolność do podejmowania decyzji w dynamicznych, często nieprzewidywalnych warunkach. Z tego powodu prace badawcze nad inteligencją cielesną obejmują zarówno rozwój technologii percepcyjnych, jak i zaawansowanych algorytmów uczenia się, które pozwalają robotom działać w sposób niezależny i elastyczny.

Wreszcie, należy pamiętać, że proces rozwoju inteligencji cielesnej robotów nie jest liniowy, a rozwój takich systemów musi być testowany i oceniany w rzeczywistych warunkach. W tym kontekście metoda szybkich iteracji i testowania, zainspirowana metodologią inżynierii oprogramowania, staje się kluczowa w rozwoju nowych technologii robotycznych. Należy również uwzględnić znaczenie porównań różnych metod oraz testowania ich w rzeczywistych, zmieniających się warunkach, aby uzyskać jak najbardziej niezawodne i skuteczne rozwiązania.