RepVideo: Rethinking Cross-Layer Representation for Video Generation

要約

ビデオ生成は拡散モデルの導入により目覚ましい進歩を遂げ、生成されるビデオの品質が大幅に向上しました。
ただし、最近の研究は主にモデル トレーニングのスケールアップに焦点を当てており、ビデオ生成プロセスに対する表現の直接的な影響については限定的な洞察が提供されています。
この論文では、最初に中間層の特徴の特性を調査し、さまざまな層にわたるアテンション マップの大幅な変動を発見しました。
これらの変動は意味論的表現を不安定にし、特徴間の累積的な差異に寄与し、最終的には隣接するフレーム間の類似性を低下させ、時間的コヒーレンスに悪影響を及ぼします。
これに対処するために、テキストからビデオへの拡散モデルの拡張表現フレームワークである RepVideo を提案します。
このアプローチでは、隣接するレイヤーから特徴を蓄積して強化された表現を形成することで、より安定したセマンティック情報を取得します。
これらの強化された表現は、アテンション メカニズムへの入力として使用され、それによって隣接するフレーム間での特徴の一貫性を確保しながら意味論的な表現力が向上します。
広範な実験により、当社の RepVideo は、複数のオブジェクト間の複雑な空間関係をキャプチャするなど、正確な空間的外観を生成する能力を大幅に強化するだけでなく、ビデオ生成の時間的一貫性も向上することが実証されました。

要約(オリジナル)

Video generation has achieved remarkable progress with the introduction of diffusion models, which have significantly improved the quality of generated videos. However, recent research has primarily focused on scaling up model training, while offering limited insights into the direct impact of representations on the video generation process. In this paper, we initially investigate the characteristics of features in intermediate layers, finding substantial variations in attention maps across different layers. These variations lead to unstable semantic representations and contribute to cumulative differences between features, which ultimately reduce the similarity between adjacent frames and negatively affect temporal coherence. To address this, we propose RepVideo, an enhanced representation framework for text-to-video diffusion models. By accumulating features from neighboring layers to form enriched representations, this approach captures more stable semantic information. These enhanced representations are then used as inputs to the attention mechanism, thereby improving semantic expressiveness while ensuring feature consistency across adjacent frames. Extensive experiments demonstrate that our RepVideo not only significantly enhances the ability to generate accurate spatial appearances, such as capturing complex spatial relationships between multiple objects, but also improves temporal consistency in video generation.

arxiv情報

著者 Chenyang Si,Weichen Fan,Zhengyao Lv,Ziqi Huang,Yu Qiao,Ziwei Liu
発行日 2025-01-15 18:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク