NaVILA: Legged Robot Vision-Language-Action Model for Navigation

要約

このペーパーでは、脚のあるロボットでのビジョンと言語のナビゲーションの問題を解決することを提案します。これは、人間が指揮する柔軟な方法を提供するだけでなく、ロボットがより挑戦的で乱雑なシーンをナビゲートできるようにすることもできます。
ただし、人間の言語の指示を低レベルの脚の関節アクションにずっと翻訳することは自明ではありません。
Navilaを提案します。Vavilaは、移動スキルを備えたビジョン言語アクションモデル（VLA）を統合する2レベルのフレームワークです。
VLAからの低レベルのアクションを直接予測する代わりに、Navilaは最初に言語の形で空間情報を使用して中レベルのアクションを生成します（例：「75cmの前進」）。
。
Navilaは、既存のベンチマークで以前のアプローチを大幅に改善します。
Isaaclabを使用した新しく開発されたベンチマークでは、同じ利点が実証されており、よりリアルなシーン、低レベルのコントロール、現実世界のロボット実験を備えています。
https://navila-bot.github.io/でより多くの結果を示します

要約(オリジナル)

This paper proposes to solve the problem of Vision-and-Language Navigation with legged robots, which not only provides a flexible way for humans to command but also allows the robot to navigate through more challenging and cluttered scenes. However, it is non-trivial to translate human language instructions all the way to low-level leg joint actions. We propose NaVILA, a 2-level framework that unifies a Vision-Language-Action model (VLA) with locomotion skills. Instead of directly predicting low-level actions from VLA, NaVILA first generates mid-level actions with spatial information in the form of language, (e.g., ‘moving forward 75cm’), which serves as an input for a visual locomotion RL policy for execution. NaVILA substantially improves previous approaches on existing benchmarks. The same advantages are demonstrated in our newly developed benchmarks with IsaacLab, featuring more realistic scenes, low-level controls, and real-world robot experiments. We show more results at https://navila-bot.github.io/

arxiv情報

著者	An-Chieh Cheng,Yandong Ji,Zhaojing Yang,Zaitian Gongye,Xueyan Zou,Jan Kautz,Erdem Bıyık,Hongxu Yin,Sifei Liu,Xiaolong Wang
発行日	2025-02-17 18:27:27+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー