要約
生成拡散モデルを利用したテキスト駆動のビデオ編集は、その潜在的な応用により大きな注目を集めています。
ただし、既存のアプローチは、事前トレーニングで提供される単語の埋め込みが制限されているため、特定の属性を持つオープンな概念をターゲットにした微妙な編集が妨げられています。
ターゲット プロンプト内のキーワードを直接変更すると、多くの場合、注意メカニズムが意図せず中断されてしまいます。
より柔軟な編集を容易に実現するために、本研究では、抽象的な概念ペアを考案することで、多様で安定したターゲットビデオを柔軟に生成する、改良された概念拡張ビデオ編集アプローチを提案します。
具体的には、このフレームワークには、概念拡張テキスト反転と二重事前監視メカニズムが含まれます。
前者は、ビデオ編集のための安定した拡散のプラグアンドプレイ ガイダンスを可能にし、より定型化された結果を得るためにターゲット属性を効果的にキャプチャします。
二重事前監視メカニズムにより、ビデオの安定性と忠実度が大幅に向上します。
総合的な評価により、私たちのアプローチがより安定した本物のようなビデオを生成し、最先端の方法を上回るパフォーマンスを発揮することが実証されました。
要約(オリジナル)
Text-driven video editing utilizing generative diffusion models has garnered significant attention due to their potential applications. However, existing approaches are constrained by the limited word embeddings provided in pre-training, which hinders nuanced editing targeting open concepts with specific attributes. Directly altering the keywords in target prompts often results in unintended disruptions to the attention mechanisms. To achieve more flexible editing easily, this work proposes an improved concept-augmented video editing approach that generates diverse and stable target videos flexibly by devising abstract conceptual pairs. Specifically, the framework involves concept-augmented textual inversion and a dual prior supervision mechanism. The former enables plug-and-play guidance of stable diffusion for video editing, effectively capturing target attributes for more stylized results. The dual prior supervision mechanism significantly enhances video stability and fidelity. Comprehensive evaluations demonstrate that our approach generates more stable and lifelike videos, outperforming state-of-the-art methods.
arxiv情報
著者 | Mingce Guo,Jingxuan He,Shengeng Tang,Zhangye Wang,Lechao Cheng |
発行日 | 2024-10-16 13:03:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google