SARO: Space-Aware Robot System for Terrain Crossing via Vision-Language Model


ビジョン言語モデル (VLM) のアプリケーションは、さまざまなロボット工学タスクにおいて目覚ましい成功を収めています。
ただし、3D 環境の地形を通る四足ロボットのナビゲーションに使用されるこれらの基礎モデルの調査はほとんどありません。
この研究では、高レベルの推論モジュール、閉ループのサブタスク実行モジュール、および低レベルの制御ポリシーで構成される革新的なシステムである SARO (Space Aware Robot System for Terrain Crossing) を紹介します。
これにより、ロボットが 3D 地形を移動して目標位置に到達できるようになります。
高レベルの推論と実行のために、タスク分解の設計と閉ループのサブタスク実行メカニズムを備えた、VLM を利用する新しいアルゴリズム システムを提案します。
低レベルの移動制御では、確率アニーリング選択 (PAS) 手法を利用して、強化学習によって制御ポリシーを効果的に学習します。
数多くの実験により、システム全体が複数の 3D 地形を正確かつ堅牢に移動でき、その一般化機能により、屋内外のさまざまなシナリオや地形でのアプリケーションが保証されることが示されています。


The application of vision-language models (VLMs) has achieved impressive success in various robotics tasks. However, there are few explorations for these foundation models used in quadruped robot navigation through terrains in 3D environments. In this work, we introduce SARO (Space Aware Robot System for Terrain Crossing), an innovative system composed of a high-level reasoning module, a closed-loop sub-task execution module, and a low-level control policy. It enables the robot to navigate across 3D terrains and reach the goal position. For high-level reasoning and execution, we propose a novel algorithmic system taking advantage of a VLM, with a design of task decomposition and a closed-loop sub-task execution mechanism. For low-level locomotion control, we utilize the Probability Annealing Selection (PAS) method to effectively train a control policy by reinforcement learning. Numerous experiments show that our whole system can accurately and robustly navigate across several 3D terrains, and its generalization ability ensures the applications in diverse indoor and outdoor scenarios and terrains. Project page:


著者 Shaoting Zhu,Derun Li,Linzhan Mou,Yong Liu,Ningyi Xu,Hang Zhao
発行日 2024-09-16 15:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク