SARO: Space-Aware Robot System for Terrain Crossing via Vision-Language Model

要約

Vision-Language Models(VLMS)の適用は、さまざまなロボットタスクで印象的な成功を収めています。
ただし、3D環境の地形を通る四足ロボットナビゲーションで使用されるこれらの基礎モデルの探索はほとんどありません。
この作業では、高レベルの推論モジュール、閉ループサブタスク実行モジュール、および低レベルの制御ポリシーで構成される革新的なシステムであるSaro(Space Aware Robot System for Terrain Crossing)を紹介します。
これにより、ロボットは3D地形を横切ってナビゲートし、ゴールポジションに到達できます。
高レベルの推論と実行のために、タスク分解の設計と閉ループサブタスク実行メカニズムを備えたVLMを利用した新しいアルゴリズムシステムを提案します。
低レベルの移動制御には、確率アニーリング選択(PAS)メソッドを利用して、補強学習によって制御ポリシーを効果的に訓練します。
多数の実験により、システム全体がいくつかの3D地形を正確かつ堅牢に移動できることが示されており、その一般化能力により、多様な屋内および屋外のシナリオと地形のアプリケーションが保証されます。
プロジェクトページ:https://saro-vlm.github.io/

要約(オリジナル)

The application of vision-language models (VLMs) has achieved impressive success in various robotics tasks. However, there are few explorations for these foundation models used in quadruped robot navigation through terrains in 3D environments. In this work, we introduce SARO (Space Aware Robot System for Terrain Crossing), an innovative system composed of a high-level reasoning module, a closed-loop sub-task execution module, and a low-level control policy. It enables the robot to navigate across 3D terrains and reach the goal position. For high-level reasoning and execution, we propose a novel algorithmic system taking advantage of a VLM, with a design of task decomposition and a closed-loop sub-task execution mechanism. For low-level locomotion control, we utilize the Probability Annealing Selection (PAS) method to effectively train a control policy by reinforcement learning. Numerous experiments show that our whole system can accurately and robustly navigate across several 3D terrains, and its generalization ability ensures the applications in diverse indoor and outdoor scenarios and terrains. Project page: https://saro-vlm.github.io/

arxiv情報

著者 Shaoting Zhu,Derun Li,Linzhan Mou,Yong Liu,Ningyi Xu,Hang Zhao
発行日 2025-03-17 07:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク