Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models

要約

コンテンツ作成のための画像およびビデオの拡散モデルの最近の進歩に伴い、生成されたコンテンツをカスタマイズするための多数の技術が提案されています。
特に、Text-to-Image (T2I) 拡散モデルのクロスアテンション レイヤーの操作は、シーン内のオブジェクトの形状と位置を制御する上で大きな可能性を示しています。
ただし、オブジェクトの動きと時間的一貫性を正確に捉えることが難しいため、画像編集技術をビデオ領域に移行することは非常に困難です。
この研究では、ゼロショットビデオ編集のための Text-to-Video (T2V) 普及モデルにおけるクロスアテンションの役割を初めて検討します。
ワンショット モデルはモーションとカメラの動きを制御する可能性を示していますが、T2V モデルではオブジェクトの形状、位置、動きに対するゼロショット制御を実証します。
現在の T2V モデルには制限があるにもかかわらず、クロスアテンション ガイダンスがビデオ編集の有望なアプローチとなり得ることを示します。

要約(オリジナル)

With recent advances in image and video diffusion models for content creation, a plethora of techniques have been proposed for customizing their generated content. In particular, manipulating the cross-attention layers of Text-to-Image (T2I) diffusion models has shown great promise in controlling the shape and location of objects in the scene. Transferring image-editing techniques to the video domain, however, is extremely challenging as object motion and temporal consistency are difficult to capture accurately. In this work, we take a first look at the role of cross-attention in Text-to-Video (T2V) diffusion models for zero-shot video editing. While one-shot models have shown potential in controlling motion and camera movement, we demonstrate zero-shot control over object shape, position and movement in T2V models. We show that despite the limitations of current T2V models, cross-attention guidance can be a promising approach for editing videos.

arxiv情報

著者 Saman Motamed,Wouter Van Gansbeke,Luc Van Gool
発行日 2024-04-08 13:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク