要約
大規模なテキストから画像への生成モデルは、高品質の画像の合成において有望なパフォーマンスを示していますが、これらのモデルを画像編集に直接適用することは依然として重要な課題です。
この課題は、時間の追加の次元により、ビデオ編集でさらに増幅されます。
これは、既存のコンテンツを混乱させることなくローカライズされた編集を実行しながら、フレーム間で安定した構造レイアウトを維持する必要があるため、実際のビデオを編集するために特にそうです。
この論文では、ゼロショットの実世界のビデオ編集のための注意制御ベースの方法であるRealcraftを提案します。
新機能の注入のために相互参加を交換し、編集オブジェクトの空間的注意をリラックスさせることにより、局所的な形状編集と強化された時間的一貫性を実現します。
私たちのモデルは、安定した拡散を直接使用し、追加情報を必要とせずに動作します。
さまざまなビデオで提案されているゼロショットの注意コントロールベースの方法を紹介し、最大64フレームのビデオで形状の面で、時間整合的でパラメーターのない編集を実証します。
要約(オリジナル)
Even though large-scale text-to-image generative models show promising performance in synthesizing high-quality images, applying these models directly to image editing remains a significant challenge. This challenge is further amplified in video editing due to the additional dimension of time. This is especially the case for editing real-world videos as it necessitates maintaining a stable structural layout across frames while executing localized edits without disrupting the existing content. In this paper, we propose RealCraft, an attention-control-based method for zero-shot real-world video editing. By swapping cross-attention for new feature injection and relaxing spatial-temporal attention of the editing object, we achieve localized shape-wise edit along with enhanced temporal consistency. Our model directly uses Stable Diffusion and operates without the need for additional information. We showcase the proposed zero-shot attention-control-based method across a range of videos, demonstrating shape-wise, time-consistent and parameter-free editing in videos of up to 64 frames.
arxiv情報
著者 | Shutong Jin,Ruiyu Wang,Florian T. Pokorny |
発行日 | 2025-01-31 15:34:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google