要約
この論文は、脚式ロボットによる視覚と言語のナビゲーションの問題を解決することを提案します。これにより、人間が柔軟に命令できる方法が提供されるだけでなく、ロボットがより困難で雑然としたシーンをナビゲートできるようになります。
しかし、人間の言語の指示を下位レベルの脚関節の動作に至るまで翻訳することは簡単ではありません。
我々は、視覚・言語・行動モデル(VLA)と移動スキルを統合する2レベルのフレームワークであるNaVILAを提案します。
VLA から低レベルのアクションを直接予測する代わりに、NaVILA はまず、言語の形で空間情報を含む中レベルのアクション (例: 「75cm 前進」) を生成します。これは、実行のための視覚的移動 RL ポリシーの入力として機能します。
。
NaVILA は、既存のベンチマークに対する以前のアプローチを大幅に改善します。
同じ利点は、より現実的なシーン、低レベルの制御、現実世界のロボット実験を特徴とする、IsaacLab で新しく開発されたベンチマークでも実証されています。
詳細な結果は https://navila-bot.github.io/ でご覧いただけます。
要約(オリジナル)
This paper proposes to solve the problem of Vision-and-Language Navigation with legged robots, which not only provides a flexible way for humans to command but also allows the robot to navigate through more challenging and cluttered scenes. However, it is non-trivial to translate human language instructions all the way to low-level leg joint actions. We propose NaVILA, a 2-level framework that unifies a Vision-Language-Action model (VLA) with locomotion skills. Instead of directly predicting low-level actions from VLA, NaVILA first generates mid-level actions with spatial information in the form of language, (e.g., ‘moving forward 75cm’), which serves as an input for a visual locomotion RL policy for execution. NaVILA substantially improves previous approaches on existing benchmarks. The same advantages are demonstrated in our newly developed benchmarks with IsaacLab, featuring more realistic scenes, low-level controls, and real-world robot experiments. We show more results at https://navila-bot.github.io/
arxiv情報
著者 | An-Chieh Cheng,Yandong Ji,Zhaojing Yang,Xueyan Zou,Jan Kautz,Erdem Bıyık,Hongxu Yin,Sifei Liu,Xiaolong Wang |
発行日 | 2024-12-05 18:58:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google