要約
DITベースのビデオ生成は顕著な結果を達成しましたが、既存のモデルの強化に関する研究は比較的未開拓のままです。
この作業では、DITベースの生成されたビデオのコヒーレンスと品質を強化するためのトレーニングなしのアプローチを紹介します。
核となるアイデアは、非対角の時間的注意分布に基づいて、クロスフレーム相関を強化することです。
そのシンプルなデザインのおかげで、私たちのアプローチは、再訓練や微調整なしで、ほとんどのDITベースのビデオ生成フレームワークに簡単に適用できます。
さまざまなDITベースのビデオ生成モデルで、私たちのアプローチは、時間的一貫性と視覚品質の両方の有望な改善を示しています。
この研究が、ビデオ生成の強化における将来の探求を刺激することを願っています。
要約(オリジナル)
DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.
arxiv情報
著者 | Yang Luo,Xuanlei Zhao,Mengzhao Chen,Kaipeng Zhang,Wenqi Shao,Kai Wang,Zhangyang Wang,Yang You |
発行日 | 2025-02-13 15:28:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google