UFO: Enhancing Diffusion-Based Video Generation with a Uniform Frame Organizer

要約

最近、拡散ベースのビデオ生成モデルが大きな成功を収めています。
ただし、既存のモデルには一貫性の弱さや時間の経過による画質の低下などの問題が発生することがよくあります。
これらの課題を克服するために、美的原則に触発されて、私たちは、あらゆる拡散ベースのビデオ生成モデルと互換性のある、Uniform Frame Organizer (UFO) と呼ばれる非侵襲的なプラグインを提案します。
UFO は、強度を調整できる一連の適応アダプターで構成されており、統合時に元のモデル パラメーターを変更することなく、ビデオの前景と背景の一貫性を大幅に高め、画質を向上させることができます。
UFO のトレーニングはシンプルかつ効率的で、必要なリソースは最小限で、定型化されたトレーニングをサポートします。
モジュラー設計により複数の UFO の組み合わせが可能になり、パーソナライズされたビデオ生成モデルのカスタマイズが可能になります。
さらに、UFO は、特別な再トレーニングを必要とせずに、同じ仕様の異なるモデル間での直接的な転送性もサポートしています。
実験結果は、UFO がビデオ生成の品質を効果的に向上させ、パブリックビデオ生成ベンチマークにおける優位性を実証していることを示しています。
コードは https://github.com/Delong-liu-bupt/UFO で公開されます。

要約(オリジナル)

Recently, diffusion-based video generation models have achieved significant success. However, existing models often suffer from issues like weak consistency and declining image quality over time. To overcome these challenges, inspired by aesthetic principles, we propose a non-invasive plug-in called Uniform Frame Organizer (UFO), which is compatible with any diffusion-based video generation model. The UFO comprises a series of adaptive adapters with adjustable intensities, which can significantly enhance the consistency between the foreground and background of videos and improve image quality without altering the original model parameters when integrated. The training for UFO is simple, efficient, requires minimal resources, and supports stylized training. Its modular design allows for the combination of multiple UFOs, enabling the customization of personalized video generation models. Furthermore, the UFO also supports direct transferability across different models of the same specification without the need for specific retraining. The experimental results indicate that UFO effectively enhances video generation quality and demonstrates its superiority in public video generation benchmarks. The code will be publicly available at https://github.com/Delong-liu-bupt/UFO.

arxiv情報

著者 Delong Liu,Zhaohui Hou,Mingjie Zhan,Shihao Han,Zhicheng Zhao,Fei Su
発行日 2024-12-12 15:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク