Wykrywanie obiektów w chmurach punktów polega na podziale danych na niepokrywające się podzbiory, z których każdy reprezentuje odrębny obiekt. Następnie każdemu podzbiorowi przypisuje się kategorię na podstawie określonego modelu. Modele te można podzielić na podejścia top-down, oparte na uczeniu maszynowym, oraz bottom-up, bazujące na analizie ruchu obiektów. W ostatnich latach pojawiły się metody end-to-end, które dzięki wykorzystaniu głębokich sieci neuronowych umożliwiają bezpośrednie rozpoznawanie obiektów z chmur punktów. Choć metody te przełamały bariery wydajnościowe tradycyjnych rozwiązań w wybranych zadaniach detekcji, brak pełnej interpretowalności modeli oraz problemy z transferem do innych domen powodują, że klasyczne metody pipeline pozostają niezastąpione, zwłaszcza w mobilnej robotyce.

Jednym z kluczowych wyzwań przy stosowaniu metod end-to-end na robotach jest ograniczona moc obliczeniowa urządzeń brzegowych (edge devices). Dlatego popularne są strategie zmniejszające złożoność obliczeń, takie jak konwersja 3D chmury punktów do reprezentacji 2D. Przykładem jest PIXOR, który przekształca chmurę do widoku z góry (Bird’s Eye View, BEV), reprezentując ją na płaszczyźnie z dwoma kanałami: wysokością i intensywnością odbicia. Następnie wykorzystuje dobrze znaną sieć RetinaNet do detekcji obiektów. Podobnie Complex-YOLO konwertuje chmurę na BEV, uwzględniając kanały wysokości, intensywności i gęstości, i wykorzystuje YOLO do wykrywania obiektów.

Inną techniką jest wokselizacja, czyli podział przestrzeni na sześcienne komórki (voxele). VoxelNet dzieli chmurę na voxele, losowo próbuje i normalizuje punkty w nich zawarte, a następnie stosuje warstwy ekstrakcji cech lokalnych oraz 3D konwolucje, by w końcu wykorzystać Region Proposal Network do wykrywania obiektów. Model SECOND usprawnia VoxelNet, zastępując standardowe konwolucje 3D rzadkimi konwolucjami, co znacząco zwiększa prędkość i efektywność pamięciową. SWFormer łączy metody BEV i wokselizacji, używając Sparse Window Transformer do przetwarzania rzadkich danych i nowatorskiej dyfuzji wokseli dla lepszej dokładności detekcji.

Metody uczenia przestrzennej reprezentacji geometrii z chmur punktów zyskują na popularności. PointPillars organizuje punkty w pionowe kolumny („piliery”) i wykorzystuje PointNet do ich reprezentacji. Metoda ta działa bardzo szybko (powyżej 60 Hz) i jest szeroko stosowana, zwłaszcza w autonomicznych pojazdach.

W praktyce nie ma potrzeby ograniczać się tylko do jednej filozofii — łączenie podejść pipeline i end-to-end może przynieść bardziej konkurencyjne wyniki. W segmencie pipeline ważnym elementem jest segmentacja chmur punktów, którą można podzielić na metody symboliczne (rule-based), tradycyjne uczenie maszynowe i metody oparte na głębokim uczeniu. Metody rule-based segmentują na podstawie cech geometrycznych, intensywności i normalnych powierzchni. Są szybkie, odporne i dobrze interpretowalne, lecz mają trudności w skomplikowanych scenach i są wrażliwe na zasłonięcia i szumy. Metody tradycyjne wykorzystują wyciągnięte płytkie cechy i modele statystyczne, ale mają podobne ograniczenia. Głębokie uczenie dostarcza abstrakcyjnych, głębokich reprezentacji i poprawia jakość segmentacji, lecz wymaga dużych zbiorów danych, jest podatne na nadmierne dopasowanie i wciąż słabo interpretowalne.

Jednym z najważniejszych etapów segmentacji jest usunięcie punktów reprezentujących podłoże, które utrudniają podział obiektów. Najprostszym sposobem jest odfiltrowanie punktów poniżej progu wysokości w układzie współrzędnych sensora. Ta metoda jest szybka, ale zakłada płaskie podłoże i prostopadłość osi z sensora do ziemi. Te założenia można złagodzić stosując kryterium lokalnej wypukłości.

Następnie punktowa chmura jest segmentowana na klastry tak, aby odległość między punktami należącymi do różnych klastrów przekraczała określony próg. Działanie tej metody zależy od gęstości i struktury danych: zbyt mała odległość skutkuje nadmiernym podziałem obiektów, zbyt duża łączeniem wielu obiektów w jeden klaster. Dodatkowo koszt obliczeniowy rośnie wraz z odległością punktów, dlatego potrzebne są dalsze optymalizacje.

Kluczową kwestią jest zrozumienie kompromisów między szybkością działania a precyzją detekcji. W praktyce najlepsze wyniki uzyskuje się często poprzez łączenie cech ręcznie opracowanych z głębokimi sieciami oraz stosowanie hybrydowych metod segmentacji i klasyfikacji. Warto pamiętać, że interpretowalność i odporność na zmiany warunków środowiskowych pozostają fundamentem dla systemów działających w rzeczywistych zastosowaniach, takich jak robotyka mobilna i autonomiczne pojazdy.

Jak efektywnie zarządzać danymi chmur punktów w systemach LIDAR?

Aby zwiększyć wydajność analizy danych 3D z wykorzystaniem sensorów LIDAR, stosuje się metodę adaptacyjnego dopasowywania progu. Tego typu technika wymaga pełnego zrozumienia charakterystyki danych chmur punktów generowanych przez typowe mechaniczne skanery LIDAR 3D. Ze względu na swoją konstrukcję fizyczną, te urządzenia charakteryzują się dużą rozdzielczością poziomą, ale stosunkowo niską rozdzielczością pionową. Gęstość punktów zmniejsza się wraz ze wzrostem odległości od sensora.

Doskonałym przykładem tego zjawiska jest ilustracja 3D z chmurą punktów, której wygenerowanie pokazuje skaner LIDAR 16-warstwowy skanujący człowieka w różnych odległościach. Taki LIDAR posiada rozdzielczość poziomą na poziomie 0,1° i rozdzielczość pionową na poziomie 0,2°. W miarę jak zwiększa się odległość, odstęp między punktami w kierunku pionowym staje się znacznie bardziej widoczny w porównaniu do rozstawu poziomego. Dlatego stosunkowo łatwym rozwiązaniem jest adaptowanie progu .d∗ w sposób liniowy względem odległości skanowania. Można to opisać równaniem:

.d=2rtan(θ).d∗ = 2 · r · \tan(\theta)

gdzie rr oznacza odległość skanowania, a θ\theta to rozdzielczość pionowa sensora. Takie podejście sprawia, że przy dalszych odległościach punkty w chmurze stają się bardziej rozproszone, co może wpływać na jakość wykrywania obiektów.

Jednym z kluczowych aspektów jest to, jakie punkty w zbiorze PP∗ powinny zostać pogrupowane przy użyciu tego samego progu .d∗. Obserwując morfologię danych generowanych przez LIDAR, inspirowano się strukturą fal wodnych, co doprowadziło do zaproponowania metody segmentacji danych chmury punktów z sensorowym, koncentrycznym podejściem do tworzenia pierścieniowych regionów. Formalnie oznacza to, że dla ustalonych wartości progu .d∗ i, które różnią się o stałą wartość Δd\Delta d, oblicza się maksymalny zakres wykrywania grupy punktów rir_i, używając odwrotności równania (3.6). Z tego oblicza się odpowiadający promień RiR_i, gdzie R0R_0 to środek sensora. Szerokość regionu, w którym stosowany jest stały próg .d∗ i, wynosi li=RiRi1l_i = R_i - R_{i-1}, a więc punkty w każdym pierścieniu grupowane są przy tym samym progu .d∗ i.

Zastosowanie takiej metody umożliwia lepsze dopasowanie analizy w zależności od odległości do obiektów. Na przykład w przypadku wykrywania ludzi przez skaner 16-warstwowy LIDAR można ustalić Δd=0.1m\Delta d = 0.1m, co pozwala na uzyskanie regionów o szerokości od 2 do 3 metrów. Warto również dodać, że algorytm można zoptymalizować przy użyciu filtrów, które poprawiają jego działanie w kontekście specyficznych zadań, takich jak wykrywanie i śledzenie ludzi. Przykładem może być filtr oparty na objętości, który pozwala na eliminację klastrów zbyt małych lub zbyt dużych. Wzór filtru objętościowego wygląda następująco:

.C={Ci0.2wi1,0.2di1,0.2hi2}.C = \{C_i | 0.2 \leq w_i \leq 1, 0.2 \leq d_i \leq 1, 0.2 \leq h_i \leq 2 \}

gdzie wiw_i, did_i, hih_i oznaczają odpowiednio szerokość, głębokość i wysokość objętości ograniczającej klaster CiC_i w metrach.

Dodatkowo, do oceny wydajności różnych metod i lepszego zrozumienia ich mocnych oraz słabych stron, pomocna może okazać się LiDAR Point Cloud Clustering Benchmark Suite. Jest to zestaw do benchmarkingu, który ocenia pięć różnych metod otwarto-źródłowych w kontekście trzech standardowych zestawów danych. Oprócz wspomnianej metody adaptacyjnego klastrowania, w zestawie tym znajdują się m.in.:

  • Klastrowanie na podstawie przebiegów, które wykorzystuje iteracyjne wyodrębnianie punktów reprezentujących grunt, a następnie pozostałe punkty są klastrowane metodą etykietowania komponentów skojarzonych w obrazach binarnych.

  • Klastrowanie głębokościowe, które jest metodą szybką i nie wymagającą dużych zasobów obliczeniowych. Polega na konwersji skanów 3D LIDAR na obrazy zakresowe 2D, które następnie są segmentowane.

  • Klastrowanie euklidesowe, gdzie punkty są grupowane na podstawie obliczenia odległości L2 między punktami w przestrzeni 3D.

  • Klastrowanie Autoware, które jest zmodyfikowaną wersją klastrowania euklidesowego. W tym przypadku punkty są najpierw rzutowane na płaszczyznę 2D, a następnie segmentowane na podstawie odległości L2.

Wszystkie metody benchmarkowe zostały uruchomione na trzech otwartych zbiorach danych zebranych przy użyciu różnych LIDAR-ów. Zbiory te obejmują dane zebrane na zewnątrz w różnych warunkach: w parkingu, na rondzie oraz w miejskim środowisku drogowym. Każdy z tych zbiorów został starannie oznakowany, aby zapewnić jakość wyników oceny.

Istotnym krokiem w procesie oceny wydajności jest zapewnienie wysokiej jakości prawdziwych danych referencyjnych. W przypadku zbioru L-CAS, poprawiono dokładność istniejących adnotacji, a dla zestawów danych EU Long-term oraz KITTI poprawiono sposób, w jaki dane zostały ręcznie oznakowane, aby bardziej odzwierciedlały rzeczywiste warunki wykrywania obiektów.

Jak działają i jakie wyzwania napotykają systemy detekcji i śledzenia ludzi oparte na lidarze 3D?

Technologia lidar 3D, wykorzystywana do detekcji i śledzenia ludzi, opiera się na precyzyjnym pomiarze odległości za pomocą wiązki laserowej, która skanuje otoczenie w przestrzeni trójwymiarowej. Podstawowe zasady działania lidarów obejmują emisję impulsów laserowych oraz rejestrację czasu ich powrotu po odbiciu od obiektów, co pozwala na tworzenie gęstych chmur punktów odwzorowujących rzeczywiste środowisko. Konstrukcje skanerów różnią się architekturą i parametrami, które wpływają na zasięg, rozdzielczość i szybkość pomiaru. Dane z lidaru są reprezentowane jako punktowe chmury, które wymagają odpowiednich metod segmentacji i klasyfikacji w celu wyodrębnienia obiektów interesujących, zwłaszcza ludzi.

Proces detekcji opiera się na segmentacji chmur punktów, która często wykorzystuje adaptacyjne metody klasteryzacji, pozwalające na grupowanie punktów w spójne klastry reprezentujące pojedyncze obiekty. Narzędzia benchmarkingowe, takie jak „LiDAR Point Cloud Clustering Benchmark Suite”, służą do obiektywnej oceny skuteczności różnych algorytmów segmentacji. W kolejnych etapach następuje klasyfikacja obiektów przy użyciu cech wyekstrahowanych z klastrów. Do niedawna dominowały metody oparte na ręcznie projektowanych cechach, jednak współcześnie coraz powszechniej stosuje się modele uczenia maszynowego, takie jak SVM (Support Vector Machines) czy Random Forest, które potrafią efektywnie rozróżniać ludzi, pojazdy i rowerzystów.

Śledzenie wielu celów w czasie rzeczywistym stanowi kluczowy etap, w którym wykorzystuje się zaawansowane techniki estymacji stanu, dopasowane do specyfiki danych lidarowych. Systemy te muszą efektywnie radzić sobie z niedoskonałościami pomiarów oraz dynamicznym zachowaniem śledzonych osób. Wdrożenie takiego rozwiązania ma szerokie zastosowanie w robotyce mobilnej, autonomicznych pojazdach czy inteligentnych systemach bezpieczeństwa.

Pomimo znacznych postępów technologicznych i rozwoju sztucznej inteligencji, obecne rozwiązania napotykają na istotne ograniczenia. Najważniejszym z nich jest wysoki koszt zaawansowanych lidarów 3D, które mimo wzrostu produkcji, nadal pozostają drogie i niedostępne dla szerokiego zastosowania. Istotną rolę w rozwoju technologii odgrywają jednak dostępne publicznie zbiory danych, które umożliwiają tworzenie i ocenę nowych algorytmów. W przyszłości konieczne jest poszerzenie dostępności wysokiej jakości danych, zwłaszcza pochodzących z systemów multisensorycznych, które integrują lidary z innymi czujnikami, na przykład kamerami.

Kolejnym wyzwaniem jest naturalna rzadkość danych lidarowych — chmury punktów często są rozproszone, co utrudnia ekstrakcję cech, zwłaszcza z małych i odległych obiektów. To nie tylko wymaga dalszego rozwoju sprzętu, ale także pobudza do tworzenia hybrydowych systemów percepcji, łączących różne źródła danych, by zwiększyć dokładność detekcji. Dodatkowo, fizyczne właściwości lidarów sprawiają, że ich działanie jest wrażliwe na warunki atmosferyczne takie jak deszcz, mgła czy śnieg. Modelowanie oraz redukcja zakłóceń spowodowanych przez cząsteczki wody w powietrzu stanowią ważne obszary badań, których celem jest zwiększenie niezawodności systemów lidarowych w trudnych warunkach środowiskowych.

Ważne jest, by czytelnik rozumiał, że technologia lidarowa jest dynamicznie rozwijającą się dziedziną, w której hardware i algorytmy muszą współgrać, aby sprostać wymaganiom praktycznych zastosowań. Dalsze innowacje w zakresie integracji multisensorycznej, optymalizacji kosztów produkcji oraz poprawy odporności na zakłócenia środowiskowe będą kluczowe dla szerokiego wdrożenia systemów detekcji i śledzenia ludzi opartych na lidarze 3D.

Jak zapobiegać katastrofalnemu zapomnieniu w uczeniu ciągłym w kontekście autonomicznych systemów nawigacyjnych?

Problem katastrofalnego zapomnienia w kontekście ciągłego uczenia się jest jednym z kluczowych wyzwań, które stoją przed nowoczesnymi systemami sztucznej inteligencji. Dotyczy to szczególnie systemów autonomicznych, które muszą działać w zmiennym środowisku, ucząc się na podstawie doświadczeń i wciąż rozwijających się danych. W szczególności w kontekście autonomicznych pojazdów, które muszą reagować na zmieniające się warunki drogowe, obecność pieszych i innych uczestników ruchu, utrata wcześniej zdobytej wiedzy podczas uczenia się nowych umiejętności może prowadzić do poważnych konsekwencji.

Badania pokazują, że tradycyjne modele sieci neuronowych, które uczą się w sposób sekwencyjny, mogą doświadczać tzw. katastrofalnego zapomnienia, co oznacza, że po przyswojeniu nowych danych system „zapomina” informacje, które wcześniej były istotne. Rozwiązanie tego problemu jest kluczowe dla rozwoju autonomicznych systemów, w tym pojazdów i robotów, które muszą utrzymać wysoką wydajność i bezpieczeństwo w zmieniających się warunkach.

W kontekście ciągłego uczenia się, różne podejścia zostały zaproponowane w literaturze. Metody takie jak „Replay Experience” (doświadczenia z przeszłości) pozwalają na przechowywanie i ponowne wykorzystanie wcześniej napotkanych danych w celu utrzymania wiedzy. Z kolei mechanizmy takie jak „synaptic intelligence” bazują na analizie ważności różnych synaps i adaptacji sieci do zmieniających się danych wejściowych. Podejście to może pomóc w utrzymaniu stabilności modelu i unikać sytuacji, w których starsze informacje są zupełnie ignorowane w obliczu nowych wyzwań.

Przykładem może być podejście zaprezentowane przez Kirkpatricka i jego zespół, które wprowadza mechanizm stabilizacji i adaptacji wag sieci, dzięki czemu nie dochodzi do utraty wcześniej nabytej wiedzy, nawet w przypadku dużych zmian w danych wejściowych. Takie rozwiązania mogą być szczególnie użyteczne w kontekście robotów autonomicznych, które uczą się w czasie rzeczywistym w dynamicznych warunkach, np. w przypadku robotów poruszających się wśród tłumu ludzi.

Również badania nad wieloma agentami, takimi jak te opisane przez Burgarda czy Thurna, pokazują, jak kluczowe staje się utrzymanie koherencji między różnymi jednostkami uczącymi się, w tym przypadku robotami, które muszą współdziałać, aby uniknąć kolizji, przejąć odpowiedzialność za konkretne zadania i adaptować się do zmieniających się warunków. W tym przypadku, katastrofalne zapomnienie może pojawić się, gdy nowa informacja od jednego robota prowadzi do zniekształcenia informacji u innych, co w efekcie może prowadzić do niepożądanych zachowań w zespole.

W obszarze nawigacji społecznie świadomej, czyli takiej, która bierze pod uwagę zachowania ludzi i ich interakcje z robotami, katastrofalne zapomnienie może prowadzić do nieprawidłowego rozumienia i przewidywania ludzkich działań. To z kolei może skutkować niebezpiecznymi sytuacjami, w których robot zareaguje w sposób nieadekwatny, np. zignoruje pieszych lub zmieni trasę w sposób, który stwarza zagrożenie dla ludzi.

W kontekście autonomicznych pojazdów, rozwiązanie problemu katastrofalnego zapomnienia staje się fundamentalne dla zapewnienia bezpieczeństwa na drogach. Pojazdy muszą reagować na warunki drogowe, na obecność innych uczestników ruchu, a także na zmieniające się okoliczności. Wszelkie próby naśladowania ludzkiego uczenia się, w tym uczenia się na podstawie doświadczeń, muszą zmierzać do zapobiegania katastrofalnemu zapomnieniu, tak by pojazdy mogły ciągle doskonalić swoje umiejętności, jednocześnie nie zapominając kluczowych danych, które mogą uratować życie.

Równocześnie, kiedy myślimy o przyszłości robotyki i autonomicznych systemów, należy pamiętać, że wyzwania związane z ciągłym uczeniem się są tylko jednym z aspektów, z którymi trzeba się zmierzyć. Utrzymanie systemu w stabilnym stanie, a także zdolność do adaptacji w obliczu nowych danych, pozostają kluczowe, szczególnie w kontekście długoterminowej autonomii systemów, które muszą działać niezawodnie przez długie okresy czasu w zmieniających się warunkach.

Należy również zauważyć, że ciągłe doskonalenie systemów autonomicznych, zwłaszcza w kontekście nawigacji społecznej i interakcji z ludźmi, wymaga nie tylko zaawansowanych algorytmów, ale także uwzględnienia etycznych i społecznych aspektów tych technologii. Roboty i autonomiczne pojazdy powinny być projektowane z myślą o minimalizacji ryzyka błędów wynikających z zapomnienia lub niewłaściwego przetwarzania informacji. Równocześnie, muszą być w stanie nauczyć się adaptować do ciągle zmieniających się warunków i interakcji z ludźmi.