Cross Anything: General Quadruped Robot Navigation through Complex Terrains

要約

ビジョン言語モデル (VLM) の応用は、さまざまなロボット工学タスクにおいて目覚ましい成功を収めていますが、四足ロボットのナビゲーションに使用される基礎モデルについてはほとんど研究されていません。
高レベルの推論モジュールと低レベルの制御ポリシーで構成される革新的なシステムである Cross Anything System (CAS) を導入し、ロボットが複雑な 3D 地形を移動して目標位置に到達できるようにします。
高レベルの推論と動作計画のために、タスク分解の設計と閉ループのサブタスク実行メカニズムを備えた、VLM を利用する新しいアルゴリズム システムを提案します。
低レベルの移動制御では、確率アニーリング選択 (PAS) 手法を利用して、強化学習によって制御ポリシーを学習します。
数多くの実験により、システム全体が複雑な 3D 地形を正確かつ堅牢に移動でき、その強力な汎用化能力により、屋内外のさまざまなシナリオや地形でのアプリケーションが保証されることが示されています。
プロジェクトページ:https://cross-anything.github.io/

要約(オリジナル)

The application of vision-language models (VLMs) has achieved impressive success in various robotics tasks, but there are few explorations for foundation models used in quadruped robot navigation. We introduce Cross Anything System (CAS), an innovative system composed of a high-level reasoning module and a low-level control policy, enabling the robot to navigate across complex 3D terrains and reach the goal position. For high-level reasoning and motion planning, we propose a novel algorithmic system taking advantage of a VLM, with a design of task decomposition and a closed-loop sub-task execution mechanism. For low-level locomotion control, we utilize the Probability Annealing Selection (PAS) method to train a control policy by reinforcement learning. Numerous experiments show that our whole system can accurately and robustly navigate across complex 3D terrains, and its strong generalization ability ensures the applications in diverse indoor and outdoor scenarios and terrains. Project page: https://cross-anything.github.io/

arxiv情報

著者 Shaoting Zhu,Derun Li,Yong Liu,Ningyi Xu,Hang Zhao
発行日 2024-07-23 11:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク