要約
ナビゲーションは、視覚運動能力を持つエージェントの基本的なスキルである。我々は、ナビゲーションワールドモデル(Navigation World Model: NWM)を紹介する。NWMは、制御可能なビデオ生成モデルであり、過去の観察とナビゲーション行動に基づいて将来の視覚観察を予測する。複雑な環境ダイナミクスを捉えるために、NWMは条件付き拡散変換器(CDiT)を採用し、人間とロボットの両方のエージェントの多様なエゴセントリックビデオコレクションで学習され、10億パラメータまでスケールアップされる。慣れ親しんだ環境において、NWMはナビゲーション軌道をシミュレートし、それらが所望の目標を達成するかどうかを評価することにより、ナビゲーション軌道を計画することができる。固定的な挙動を持つ教師ありナビゲーションポリシーとは異なり、NWMは計画中に動的に制約を組み込むことができる。実験では、ゼロから軌道を計画したり、外部の方針からサンプリングされた軌道をランキングすることで、その有効性が実証された。さらに、NWMは学習された視覚的事前分布を活用し、1つの入力画像から不慣れな環境での軌道を想像することができるため、次世代のナビゲーションシステムのための柔軟で強力なツールとなる。
要約(オリジナル)
Navigation is a fundamental skill of agents with visual-motor capabilities. We introduce a Navigation World Model (NWM), a controllable video generation model that predicts future visual observations based on past observations and navigation actions. To capture complex environment dynamics, NWM employs a Conditional Diffusion Transformer (CDiT), trained on a diverse collection of egocentric videos of both human and robotic agents, and scaled up to 1 billion parameters. In familiar environments, NWM can plan navigation trajectories by simulating them and evaluating whether they achieve the desired goal. Unlike supervised navigation policies with fixed behavior, NWM can dynamically incorporate constraints during planning. Experiments demonstrate its effectiveness in planning trajectories from scratch or by ranking trajectories sampled from an external policy. Furthermore, NWM leverages its learned visual priors to imagine trajectories in unfamiliar environments from a single input image, making it a flexible and powerful tool for next-generation navigation systems.
arxiv情報
著者 | Amir Bar,Gaoyue Zhou,Danny Tran,Trevor Darrell,Yann LeCun |
発行日 | 2024-12-04 18:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |