要約
世界モデルは、アクション制御された予測モデルを学ぶことを目指しており、インテリジェントエージェントの開発に不可欠であることが証明されています。
ただし、ほとんどの既存の世界モデルは、実質的なアクションラベルデータとコストのかかるトレーニングに大きく依存しているため、限られた相互作用を通じて異種のアクションを備えた新しい環境に適応することが困難です。
この制限は、より広いドメイン全体の適用性を妨げる可能性があります。
この課題を克服するために、効率的な適応を可能にする革新的な世界モデル学習アプローチであるAdaworldを提案します。
重要なアイデアは、世界モデルの事前削除中にアクション情報を組み込むことです。
これは、ビデオから潜在的なアクションを自己監視する方法で抽出し、フレーム間で最も重要な遷移をキャプチャすることによって達成されます。
次に、これらの潜在的なアクションを条件とする自己回帰の世界モデルを開発します。
この学習パラダイムは、高度に適応性のある世界モデルを可能にし、限られた相互作用や微調整でも効率的な転送と新しい行動の学習を促進します。
複数の環境にわたる当社の包括的な実験は、Adaworldがシミュレーション品質と視覚計画の両方で優れたパフォーマンスを達成することを示しています。
要約(オリジナル)
World models aim to learn action-controlled prediction models and have proven essential for the development of intelligent agents. However, most existing world models rely heavily on substantial action-labeled data and costly training, making it challenging to adapt to novel environments with heterogeneous actions through limited interactions. This limitation can hinder their applicability across broader domains. To overcome this challenge, we propose AdaWorld, an innovative world model learning approach that enables efficient adaptation. The key idea is to incorporate action information during the pretraining of world models. This is achieved by extracting latent actions from videos in a self-supervised manner, capturing the most critical transitions between frames. We then develop an autoregressive world model that conditions on these latent actions. This learning paradigm enables highly adaptable world models, facilitating efficient transfer and learning of new actions even with limited interactions and finetuning. Our comprehensive experiments across multiple environments demonstrate that AdaWorld achieves superior performance in both simulation quality and visual planning.
arxiv情報
著者 | Shenyuan Gao,Siyuan Zhou,Yilun Du,Jun Zhang,Chuang Gan |
発行日 | 2025-03-24 17:58:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google