Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning

要約

大規模で多様なデータセットを利用した教師なし事前トレーニング手法は、さまざまな領域で大きな成功を収めています。
最近の研究では、モデルベース強化学習 (MBRL) のためのこのような教師なし事前トレーニング方法が研究されていますが、ドメイン固有のデータまたはシミュレートされたデータに限定されています。
この論文では、下流の視覚制御タスクを効率的に学習するために、豊富な実際のビデオを使用して世界モデルを事前トレーニングする問題を研究します。
ただし、実際のビデオは、複雑な背景やテクスチャ付きの外観など、さまざまな状況要因によって複雑であるため、世界モデルが共有世界の知識を抽出してより適切に一般化することができません。
この問題に取り組むために、コンテキストとダイナミクスのモデリングを明示的に分離して、実際のビデオの複雑さと多様性を克服し、異なるシーン間の知識の伝達を容易にするコンテキスト化ワールド モデル (ContextWM) を導入します。
具体的には、潜在ダイナミクス モデルのコンテキスト化された拡張は、コンテキスト情報を保持し、画像デコーダを強化するコンテキスト エンコーダを組み込むことによって精巧に実現されます。これにより、潜在ダイナミクス モデルが本質的な時間的変動に集中することが促進されます。
私たちの実験では、ContextWM を備えた現場でのビデオ事前トレーニングにより、ロボット操作、移動、自動運転などのさまざまな領域で MBRL のサンプル効率が大幅に向上することが示されました。
コードはこのリポジトリ: https://github.com/thuml/ContextWM で入手できます。

要約(オリジナル)

Unsupervised pre-training methods utilizing large and diverse datasets have achieved tremendous success across a range of domains. Recent work has investigated such unsupervised pre-training methods for model-based reinforcement learning (MBRL) but is limited to domain-specific or simulated data. In this paper, we study the problem of pre-training world models with abundant in-the-wild videos for efficient learning of downstream visual control tasks. However, in-the-wild videos are complicated with various contextual factors, such as intricate backgrounds and textured appearance, which precludes a world model from extracting shared world knowledge to generalize better. To tackle this issue, we introduce Contextualized World Models (ContextWM) that explicitly separate context and dynamics modeling to overcome the complexity and diversity of in-the-wild videos and facilitate knowledge transfer between distinct scenes. Specifically, a contextualized extension of the latent dynamics model is elaborately realized by incorporating a context encoder to retain contextual information and empower the image decoder, which encourages the latent dynamics model to concentrate on essential temporal variations. Our experiments show that in-the-wild video pre-training equipped with ContextWM can significantly improve the sample efficiency of MBRL in various domains, including robotic manipulation, locomotion, and autonomous driving. Code is available at this repository: https://github.com/thuml/ContextWM.

arxiv情報

著者 Jialong Wu,Haoyu Ma,Chaoyi Deng,Mingsheng Long
発行日 2023-10-27 03:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク