FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

要約

インタラクティブな画像編集により、ユーザーは描画、クリック、ドラッグなどの視覚的な対話操作を通じて画像を変更できます。
既存の方法は、物体がさまざまな物理的相互作用によってどのように変化するかを捕捉するため、ビデオからこのような監視信号を構築します。
ただし、これらのモデルは通常、テキストから画像への拡散モデルに基づいて構築されるため、(i) 大量のトレーニング サンプルと (ii) 現実世界のダイナミクスと視覚的一貫性を学習するための追加のリファレンス エンコーダが必要になります。
この論文では、このタスクを画像からビデオへの生成問題として再定式化し、強力なビデオ拡散事前分布を継承してトレーニング コストを削減し、時間的一貫性を確保します。
具体的には、この定式化の効率的なインスタンス化として FramePainter を紹介します。
Stable Video Diffusion で初期化されており、軽量のスパース コントロール エンコーダのみを使用して編集信号を挿入します。
2 つのフレーム間の大きな動きを処理する際の時間的注意の限界を考慮して、編集画像トークンとソース画像トークンの間の密な対応を促進しながら、受容野を拡大するために注意を一致させることをさらに提案します。
さまざまな編集信号にわたる FramePainter の有効性と効率性を強調します。これは、はるかに少ないトレーニング データで以前の最先端の方法を大幅に上回り、非常にシームレスで一貫した画像編集を実現します。たとえば、画像の反射を自動的に調整します。
カップ。
さらに、FramePainter は、現実世界のビデオには存在しないシナリオでも例外的な一般化を示します。たとえば、カクレクマノミをサメのような形状に変換します。
私たちのコードは https://github.com/YBYBZhang/FramePainter で入手できます。

要約(オリジナル)

Interactive image editing allows users to modify images through visual interaction operations such as drawing, clicking, and dragging. Existing methods construct such supervision signals from videos, as they capture how objects change with various physical interactions. However, these models are usually built upon text-to-image diffusion models, so necessitate (i) massive training samples and (ii) an additional reference encoder to learn real-world dynamics and visual consistency. In this paper, we reformulate this task as an image-to-video generation problem, so that inherit powerful video diffusion priors to reduce training costs and ensure temporal consistency. Specifically, we introduce FramePainter as an efficient instantiation of this formulation. Initialized with Stable Video Diffusion, it only uses a lightweight sparse control encoder to inject editing signals. Considering the limitations of temporal attention in handling large motion between two frames, we further propose matching attention to enlarge the receptive field while encouraging dense correspondence between edited and source image tokens. We highlight the effectiveness and efficiency of FramePainter across various of editing signals: it domainantly outperforms previous state-of-the-art methods with far less training data, achieving highly seamless and coherent editing of images, \eg, automatically adjust the reflection of the cup. Moreover, FramePainter also exhibits exceptional generalization in scenarios not present in real-world videos, \eg, transform the clownfish into shark-like shape. Our code will be available at https://github.com/YBYBZhang/FramePainter.

arxiv情報

著者 Yabo Zhang,Xinpeng Zhou,Yihan Zeng,Hang Xu,Hui Li,Wangmeng Zuo
発行日 2025-01-14 16:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク