要約
このペーパーでは、脚のあるロボットでのビジョンと言語のナビゲーションの問題を解決することを提案します。これは、人間が指揮する柔軟な方法を提供するだけでなく、ロボットがより挑戦的で乱雑なシーンをナビゲートできるようにすることもできます。
ただし、人間の言語の指示を低レベルの脚の関節アクションにずっと翻訳することは自明ではありません。
Navilaを提案します。Vavilaは、移動スキルを備えたビジョン言語アクションモデル(VLA)を統合する2レベルのフレームワークです。
VLAからの低レベルのアクションを直接予測する代わりに、Navilaは最初に言語の形で空間情報を使用して中レベルのアクションを生成します(例:「75cmの前進」)。
。
Navilaは、既存のベンチマークで以前のアプローチを大幅に改善します。
Isaaclabを使用した新しく開発されたベンチマークでは、同じ利点が実証されており、よりリアルなシーン、低レベルのコントロール、現実世界のロボット実験を備えています。
https://navila-bot.github.io/でより多くの結果を示します
要約(オリジナル)
This paper proposes to solve the problem of Vision-and-Language Navigation with legged robots, which not only provides a flexible way for humans to command but also allows the robot to navigate through more challenging and cluttered scenes. However, it is non-trivial to translate human language instructions all the way to low-level leg joint actions. We propose NaVILA, a 2-level framework that unifies a Vision-Language-Action model (VLA) with locomotion skills. Instead of directly predicting low-level actions from VLA, NaVILA first generates mid-level actions with spatial information in the form of language, (e.g., ‘moving forward 75cm’), which serves as an input for a visual locomotion RL policy for execution. NaVILA substantially improves previous approaches on existing benchmarks. The same advantages are demonstrated in our newly developed benchmarks with IsaacLab, featuring more realistic scenes, low-level controls, and real-world robot experiments. We show more results at https://navila-bot.github.io/
arxiv情報
著者 | An-Chieh Cheng,Yandong Ji,Zhaojing Yang,Zaitian Gongye,Xueyan Zou,Jan Kautz,Erdem Bıyık,Hongxu Yin,Sifei Liu,Xiaolong Wang |
発行日 | 2025-02-17 18:27:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google