Roboty pracujące w sortowni paczek? Figure przedstawia możliwości ulepszonego modelu VLA o nazwie Helix
Roboty humanoidalne, które będą pracować na ludzkich stanowiskach, w miejscach takich jak sortownia paczek - taką wizję przyszłości widzi firma Figure, która opracowuje modele, jak również oprogramowanie do nich. W najnowszym materiale wideo pokazała kolejne osiągnięcia dotyczące modelu VLA (Vision-Language-Action) o nazwie Helix, który został ulepszony. Rozwiązanie wypada w praktyce całkiem dobrze, gdyż roboty mogą dość sprawnie pracować i szybko korygować swoje błędy.
Figure przychodzi do nas z zaktualizowaną wersją modelu VLA o nazwie Helix. Nowość może teraz przetwarzać dane z dwóch kamer i pozwala robotom wykonywać dokładniejsze ruchy. Możliwości przedstawiono na przykładzie robotów humanoidalnych pracujących na liniach z paczkami.
Helix sprawi, że roboty humanoidalne staną się lepsze. Nowy model AI umożliwia im pracę z obiektami, których nigdy nie widziały
Wspomniany model VLA Helix opiera się na dwóch systemach, z których jeden potrafi analizować sceny i rozumie język (System 2), a drugi przetwarza informacje z tego pierwszego i umożliwia robotom wykonywanie na ich podstawie odpowiednich działań (System 1). To właśnie ten ostatni został ulepszony (przetwarzanie obrazu 3D, czyli z dwóch kamer - poprzednik opierał się na obrazie tylko z jednej). Dla ludzi praca w sortowni paczek nie jest zbyt dużym wyzwaniem, natomiast w przypadku robotów sprawa wygląda już nieco inaczej. Paczki mogą mieć bowiem różne rozmiary i kształty, inną wagę, a przy tym jedne będą bardziej solidne (kartony), a inne mogą być miękkie (np. koperty foliowe z ciuchami). Na dodatek wszystkie stale są w ruchu. Zadanie robota nie należy więc do łatwych, gdyż w takim scenariuszu musi odpowiednio chwycić paczkę, w razie potrzeby odsłonić jej etykietę i przesunąć dalej.
Unitree G1 - humanoidalny robot, który imponuje możliwościami. Model szykuje się do masowej produkcji
Efekty (widoczne na powyższym wideo), jakie udało się uzyskać po szkoleniu na danych (o długości 8 godzin), które zostały wybrane przez twórców, są całkiem dobre. Roboty są w stanie nawet korygować swoje niedociągnięcia (np. kiedy paczka nie zostanie przez nich poprawnie chwycona), co już teraz dobrze rokuje na przyszłość. Przyspieszając ruchy robotów o 50% - względem tego, co pokazano na materiałach treningowych - dokładność jest zachowywana, jednak po przekroczeniu tej wartości modele stają się mniej precyzyjne. Jeżeli jesteśmy zainteresowani omawianym tematem, to warto zapoznać się z artykułem, który znajdziemy pod tym adresem. Omówiono w nim wszystkie aspekty w bardziej szczegółowy, a zarazem techniczny sposób. Modele VLM już teraz są istotnym czynnikiem, który wpływa na rozwój humanoidalnych robotów, a z czasem sytuacja zapewne będzie wyglądać jeszcze lepiej.
Po lewej: lepsza funkcjonalność robotów przy użyciu danych z dwóch kamer + funkcji Multiscale; po prawej: krótsze, ale bardziej jakościowe dane treningowe lepiej wpływają na efektywność niż duża ilość niewyselekcjonowanych materiałów.
Powiązane publikacje

ARM ma już 40 lat. Architektura, która zasila smartfony, serwery i roboty, trafiła do ponad 250 miliardów urządzeń
22
Anthropic chce zajrzeć do wnętrza AI. Czy do 2027 roku odkryjemy, jak naprawdę myślą modele językowe?
22
Firma Elona Muska xAI chce pozyskać 25 miliardów dolarów na budowę superkomputera Colossus 2 z milionem GPU NVIDIA
60
Nowatorski interfejs mózg-komputer od Georgia Tech może zmienić sposób, w jaki ludzie komunikują się z technologią i otoczeniem
4