FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing

要約

テキストからビデオへの編集は、テキストのプロンプトを条件としてソースビデオの外観を編集することを目的としています。
このタスクの主な課題は、編集されたビデオのすべてのフレームが視覚的に一貫していることを確認することです。
最近の研究では、U-Net の 2D 空間的注意を時空間的注意に拡張することで、高度なテキストから画像への拡散モデルをこのタスクに適用しています。
時間的コンテキストは時空間的注意を通じて追加できますが、パッチごとに無関係な情報が導入される可能性があり、編集されたビデオに不整合が生じる可能性があります。
この論文では、テキストからビデオへの編集における不一致の問題に対処するために、拡散モデルの U-Net のアテンション モジュールにオプティカル フローを初めて導入しました。
私たちの手法である FLATTEN は、アテンション モジュール内でパッチを異なるフレーム間で同じフロー パス上に強制的に適用し、相互に注意を払うことで、編集されたビデオの視覚的な一貫性を向上させます。
さらに、私たちの手法はトレーニング不要で、あらゆる拡散ベースのテキストからビデオへの編集手法にシームレスに統合でき、視覚的な一貫性が向上します。
既存のテキストからビデオへの編集ベンチマークの実験結果は、私たちの提案した方法が新しい最先端のパフォーマンスを達成することを示しています。
特に、私たちの方法は、編集されたビデオの視覚的な一貫性を維持することに優れています。

要約(オリジナル)

Text-to-video editing aims to edit the visual appearance of a source video conditional on textual prompts. A major challenge in this task is to ensure that all frames in the edited video are visually consistent. Most recent works apply advanced text-to-image diffusion models to this task by inflating 2D spatial attention in the U-Net into spatio-temporal attention. Although temporal context can be added through spatio-temporal attention, it may introduce some irrelevant information for each patch and therefore cause inconsistency in the edited video. In this paper, for the first time, we introduce optical flow into the attention module in the diffusion model’s U-Net to address the inconsistency issue for text-to-video editing. Our method, FLATTEN, enforces the patches on the same flow path across different frames to attend to each other in the attention module, thus improving the visual consistency in the edited videos. Additionally, our method is training-free and can be seamlessly integrated into any diffusion-based text-to-video editing methods and improve their visual consistency. Experiment results on existing text-to-video editing benchmarks show that our proposed method achieves the new state-of-the-art performance. In particular, our method excels in maintaining the visual consistency in the edited videos.

arxiv情報

著者 Yuren Cong,Mengmeng Xu,Christian Simon,Shoufa Chen,Jiawei Ren,Yanping Xie,Juan-Manuel Perez-Rua,Bodo Rosenhahn,Tao Xiang,Sen He
発行日 2024-02-22 13:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク