DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

要約

制御アクションが与えられた場合の将来の結果を予測する能力は、物理的推論の基本です。
ただし、このような予測モデルはワールド モデルと呼ばれることが多く、学習が困難であることが証明されており、通常はオンライン ポリシー学習を使用したタスク固有のソリューション用に開発されます。
私たちは、世界モデルの真の可能性は、受動的データのみを使用してさまざまな問題を推論し、計画する能力にあると主張します。
具体的には、ワールド モデルには次の 3 つの特性があることを要求します。1) オフラインでトレーニング可能で、事前に収集された軌道であること、2) テスト時の動作の最適化をサポートすること、3) タスクに依存しない推論を促進すること。
これを実現するために、視覚世界を再構築することなく視覚ダイナミクスをモデル化する新しい方法である DINO World Model (DINO-WM) を紹介します。
DINO-WM は、DINOv2 で事前トレーニングされた空間パッチ機能を活用し、将来のパッチ機能を予測することでオフラインの行動軌跡から学習できるようにします。
この設計により、DINO-WM はアクション シーケンスの最適化を通じて観察目標を達成でき、目的のゴール パッチの特徴を予測ターゲットとして扱うことでタスクに依存しない行動計画を容易にします。
私たちは、迷路ナビゲーション、テーブルトッププッシュ、粒子操作など、さまざまな領域にわたって DINO-WM を評価します。
私たちの実験は、DINO-WM が専門家のデモンストレーション、報酬モデリング、事前学習された逆モデルに依存せずに、テスト時にゼロショットの動作ソリューションを生成できることを示しています。
特に、DINO-WM は、従来の最先端の研究と比較して強力な一般化機能を示し、任意に構成された迷路、さまざまなオブジェクト形状によるプッシュ操作、マルチパーティクル シナリオなどの多様なタスク ファミリに適応します。

要約(オリジナル)

The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.

arxiv情報

著者 Gaoyue Zhou,Hengkai Pan,Yann LeCun,Lerrel Pinto
発行日 2024-11-07 18:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク