Owl-1: Omni World Model for Consistent Long Video Generation

要約

ビデオ生成モデル (VGM) は最近大きな注目を集めており、汎用大型ビジョン モデルの有望な候補として機能します。
毎回短いビデオしか生成できませんが、既存の方法では、最後のフレームの出力を次のラウンドの生成の条件として使用し、VGM を繰り返し呼び出すことで長いビデオの生成を実現します。
ただし、最後のフレームにはシーンに関する短期的な詳細な情報しか含まれていないため、長期的には不一致が生じます。
これに対処するために、一貫した長時間ビデオ生成のための長期にわたる一貫性のある包括的な条件を生成するオムニ ワールド モデル (Owl-1) を提案します。
ビデオは根底にある進化する世界の観察であるため、私たちは潜在空間における長期的な発展をモデル化し、VGM を使用してそれらをビデオに撮影することを提案します。
具体的には、明示的なビデオ観察にデコードできる潜在的な状態変数で世界を表します。
これらの観察は、状態変数を更新する時間的ダイナミクスを予測するための基礎として機能します。
進化するダイナミクスと永続的な状態の間の相互作用により、長いビデオの多様性と一貫性が強化されます。
広範な実験により、Owl-1 が VBench-I2V および VBench-Long 上で SOTA メソッドと同等のパフォーマンスを達成することが示され、高品質のビデオ観測を生成する能力が検証されました。
コード: https://github.com/huang-yh/Owl。

要約(オリジナル)

Video generation models (VGMs) have received extensive attention recently and serve as promising candidates for general-purpose large vision models. While they can only generate short videos each time, existing methods achieve long video generation by iteratively calling the VGMs, using the last-frame output as the condition for the next-round generation. However, the last frame only contains short-term fine-grained information about the scene, resulting in inconsistency in the long horizon. To address this, we propose an Omni World modeL (Owl-1) to produce long-term coherent and comprehensive conditions for consistent long video generation. As videos are observations of the underlying evolving world, we propose to model the long-term developments in a latent space and use VGMs to film them into videos. Specifically, we represent the world with a latent state variable which can be decoded into explicit video observations. These observations serve as a basis for anticipating temporal dynamics which in turn update the state variable. The interaction between evolving dynamics and persistent state enhances the diversity and consistency of the long videos. Extensive experiments show that Owl-1 achieves comparable performance with SOTA methods on VBench-I2V and VBench-Long, validating its ability to generate high-quality video observations. Code: https://github.com/huang-yh/Owl.

arxiv情報

著者 Yuanhui Huang,Wenzhao Zheng,Yuan Gao,Xin Tao,Pengfei Wan,Di Zhang,Jie Zhou,Jiwen Lu
発行日 2024-12-12 18:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク