FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing

要約

テキストからビデオへの普及モデルは目覚ましい進歩を遂げました。
時間的に一貫したビデオを生成する能力に後押しされて、これらの基本モデルを使用したゼロショットビデオ編集の研究は急速に拡大しました。
編集品質を高めるために、ビデオ編集では構造コントロールが頻繁に使用されます。
これらの技術の中でも、クロスアテンション マスク制御は、その有効性と効率性において際立っています。
ただし、クロスアテンション マスクを単純にビデオ編集に適用すると、ぼやけやちらつきなどのアーチファクトが発生する可能性があります。
私たちの実験では、これまでのビデオ編集研究では見落とされていた重要な要素が明らかになりました。それは、クロスアテンション マスクは一貫して明確ではなく、モデルの構造とノイズ除去のタイムステップによって変化するということです。
この問題に対処するために、このばらつきを定量化するマスク マッチング コスト (MMC) という指標を提案し、特定のビデオ編集タスクに合わせて最適なマスクを選択する方法である FreeMask を提案します。
MMC が選択したマスクを使用して、温度、クロス、セルフ アテンション モジュールなどの包括的なアテンション機能内のマスクされた融合メカニズムをさらに改善します。
私たちのアプローチは、より優れたパフォーマンスで既存のゼロショットビデオ編集フレームワークにシームレスに統合でき、制御支援やパラメータ微調整を必要とせず、マスク精度制御による未編集のセマンティックレイアウトの適応的分離を可能にします。
広範な実験により、FreeMask は最先端の方法と比較して優れた意味的忠実度、時間的一貫性、および編集品質を達成できることが実証されています。

要約(オリジナル)

Text-to-video diffusion models have made remarkable advancements. Driven by their ability to generate temporally coherent videos, research on zero-shot video editing using these fundamental models has expanded rapidly. To enhance editing quality, structural controls are frequently employed in video editing. Among these techniques, cross-attention mask control stands out for its effectiveness and efficiency. However, when cross-attention masks are naively applied to video editing, they can introduce artifacts such as blurring and flickering. Our experiments uncover a critical factor overlooked in previous video editing research: cross-attention masks are not consistently clear but vary with model structure and denoising timestep. To address this issue, we propose the metric Mask Matching Cost (MMC) that quantifies this variability and propose FreeMask, a method for selecting optimal masks tailored to specific video editing tasks. Using MMC-selected masks, we further improve the masked fusion mechanism within comprehensive attention features, e.g., temp, cross, and self-attention modules. Our approach can be seamlessly integrated into existing zero-shot video editing frameworks with better performance, requiring no control assistance or parameter fine-tuning but enabling adaptive decoupling of unedited semantic layouts with mask precision control. Extensive experiments demonstrate that FreeMask achieves superior semantic fidelity, temporal consistency, and editing quality compared to state-of-the-art methods.

arxiv情報

著者 Lingling Cai,Kang Zhao,Hangjie Yuan,Yingya Zhang,Shiwei Zhang,Kejie Huang
発行日 2024-09-30 17:01:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク