iVideoGPT: Interactive VideoGPTs are Scalable World Models

要約

ワールド モデルにより、モデルベースのエージェントは、現実世界の意思決定のために想像上の環境内でインタラクティブに探索、推論、計画を立てることができます。
しかし、双方向性に対する高い需要により、世界モデルを大規模に開発するためにビデオ生成モデルにおける最近の進歩を活用する際に課題が生じています。
この取り組みでは、Interactive VideoGPT (iVideoGPT) を導入しています。これは、マルチモーダルな信号 (視覚的観察、アクション、報酬) を一連のトークンに統合し、次のトークンの予測を通じてエージェントのインタラクティブなエクスペリエンスを促進する、スケーラブルな自己回帰変換フレームワークです。
iVideoGPT は、高次元の視覚的観察を効率的に離散化する新しい圧縮トークン化技術を特徴としています。
スケーラブルなアーキテクチャを活用することで、何百万もの人間とロボットの操作軌跡で iVideoGPT を事前トレーニングすることができ、幅広い下流タスクのインタラクティブな世界モデルとして機能するように適応できる汎用性の高い基盤を確立できます。
これらには、アクション条件付きビデオ予測、ビジュアルプランニング、モデルベースの強化学習が含まれており、iVideoGPT は最先端の手法と比較して競争力のあるパフォーマンスを実現します。
私たちの研究は、インタラクティブな一般世界モデルの開発を推進し、生成ビデオ モデルと実用的なモデルベースの強化学習アプリケーションの間のギャップを橋渡しします。
コードと事前トレーニングされたモデルは https://thuml.github.io/iVideoGPT で入手できます。

要約(オリジナル)

World models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harnessing recent advancements in video generative models for developing world models at scale. This work introduces Interactive VideoGPT (iVideoGPT), a scalable autoregressive transformer framework that integrates multimodal signals–visual observations, actions, and rewards–into a sequence of tokens, facilitating an interactive experience of agents via next-token prediction. iVideoGPT features a novel compressive tokenization technique that efficiently discretizes high-dimensional visual observations. Leveraging its scalable architecture, we are able to pre-train iVideoGPT on millions of human and robotic manipulation trajectories, establishing a versatile foundation that is adaptable to serve as interactive world models for a wide range of downstream tasks. These include action-conditioned video prediction, visual planning, and model-based reinforcement learning, where iVideoGPT achieves competitive performance compared with state-of-the-art methods. Our work advances the development of interactive general world models, bridging the gap between generative video models and practical model-based reinforcement learning applications. Code and pre-trained models are available at https://thuml.github.io/iVideoGPT.

arxiv情報

著者 Jialong Wu,Shaofeng Yin,Ningya Feng,Xu He,Dong Li,Jianye Hao,Mingsheng Long
発行日 2024-10-31 08:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク