Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

要約

模倣学習は、ジェネラリストのロボットを構築するための有望なアプローチとして浮上しています。
ただし、高品質の専門家デモに依存しているため、大規模なロボットファンデーションモデルの模倣学習のスケーリング学習は依然として困難です。
一方、幅広い環境と多様な動作を描いた大量のビデオデータを容易に入手できます。
このデータは、実際のダイナミクスとエージェントと環境の相互作用に関する豊富な情報源を提供します。
ただし、模倣学習のためにこのデータを直接活用することは、アクション注釈がないために困難であることが証明されています。
この作業では、統一された世界モデル(UWM)を提示します。これは、ポリシー学習のビデオとアクションデータの両方を活用できるフレームワークです。
具体的には、UWMは、独立した拡散タイムステップが各モダリティを支配する統合されたトランスアーキテクチャ内で、アクション拡散プロセスとビデオ拡散プロセスを統合します。
各拡散タイムステップを制御することにより、UWMはポリシー、前方のダイナミクス、逆ダイナミクス、ビデオジェネレーターを柔軟に表現できます。
シミュレートされた実世界の実験を通じて、次のことを示します。(1)UWMは、ダイナミクスとアクション予測の両方を備えた大規模なマルチタスクロボットデータセットで効果的な事前化を可能にし、模倣学習よりも一般化可能で堅牢なポリシーをもたらします。
我々の結果は、UWMがスケーラブルなロボット学習のために大規模で不均一なデータセットを活用するための有望なステップを提供し、模倣学習と世界モデリングのしばしば異なるパラダイムの間の簡単な統一を提供することを示唆しています。
ビデオとコードはhttps://weirdlabuw.github.io/uwm/で入手できます。

要約(オリジナル)

Imitation learning has emerged as a promising approach towards building generalist robots. However, scaling imitation learning for large robot foundation models remains challenging due to its reliance on high-quality expert demonstrations. Meanwhile, large amounts of video data depicting a wide range of environments and diverse behaviors are readily available. This data provides a rich source of information about real-world dynamics and agent-environment interactions. Leveraging this data directly for imitation learning, however, has proven difficult due to the lack of action annotation. In this work, we present Unified World Models (UWM), a framework that allows for leveraging both video and action data for policy learning. Specifically, a UWM integrates an action diffusion process and a video diffusion process within a unified transformer architecture, where independent diffusion timesteps govern each modality. By controlling each diffusion timestep, UWM can flexibly represent a policy, a forward dynamics, an inverse dynamics, and a video generator. Through simulated and real-world experiments, we show that: (1) UWM enables effective pretraining on large-scale multitask robot datasets with both dynamics and action predictions, resulting in more generalizable and robust policies than imitation learning, (2) UWM naturally facilitates learning from action-free video data through independent control of modality-specific diffusion timesteps, further improving the performance of finetuned policies. Our results suggest that UWM offers a promising step toward harnessing large, heterogeneous datasets for scalable robot learning, and provides a simple unification between the often disparate paradigms of imitation learning and world modeling. Videos and code are available at https://weirdlabuw.github.io/uwm/.

arxiv情報

著者 Chuning Zhu,Raymond Yu,Siyuan Feng,Benjamin Burchfiel,Paarth Shah,Abhishek Gupta
発行日 2025-05-23 00:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク