Taming Teacher Forcing for Masked Autoregressive Video Generation

要約

フレーム内生成のためのマスクされたモデリングと次のフレーム生成のための因果モデリングを組み合わせたハイブリッド ビデオ生成フレームワークである MAGI を紹介します。
当社の主要なイノベーションである Complete Teacher Forcing (CTF) は、マスクされたフレームではなく完全な観察フレーム上でマスクされたフレームを条件付けし (つまり、Masked Teacher Forcing、MTF)、トークン レベル (パッチ レベル) からフレーム レベルの自己回帰生成へのスムーズな移行を可能にします。

CTF は MTF を大幅に上回り、最初のフレームの条件付きビデオ予測で FVD スコアが +23% 向上しました。
露出バイアスなどの問題に対処するために、私たちはターゲットを絞ったトレーニング戦略を採用し、自己回帰ビデオ生成における新しいベンチマークを設定します。
実験では、MAGI がわずか 16 フレームでトレーニングされた場合でも、100 フレームを超える長く一貫したビデオ シーケンスを生成できることが示されており、スケーラブルで高品質のビデオ生成の可能性が強調されています。

要約(オリジナル)

We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.

arxiv情報

著者 Deyu Zhou,Quan Sun,Yuang Peng,Kun Yan,Runpei Dong,Duomin Wang,Zheng Ge,Nan Duan,Xiangyu Zhang,Lionel M. Ni,Heung-Yeung Shum
発行日 2025-01-21 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク