DiT4Edit: Diffusion Transformer for Image Editing

要約

UNet ベースの画像編集は最近進歩していますが、高解像度画像で形状を認識したオブジェクトを編集する方法はまだ不足しています。
UNet と比較して、拡散トランスフォーマー (DiT) は、パッチ間の長距離依存関係を効果的にキャプチャする優れた機能を実証し、より高品質の画像生成につながります。
この論文では、最初の拡散トランスベースの画像編集フレームワークである DiT4Edit を提案します。
具体的には、DiT4Edit は DPM ソルバー反転アルゴリズムを使用して反転された潜在を取得し、UNet ベースのフレームワークで一般的に使用される DDIM 反転アルゴリズムと比較してステップ数を削減します。
さらに、トランスフォーマーの計算ストリームに合わせて、統合されたアテンション コントロールとパッチのマージを設計します。
この統合により、フレームワークは高品質の編集画像をより速く生成できるようになります。
私たちの設計は DiT の利点を活用しており、特に高解像度で任意のサイズの画像において、画像編集において UNet 構造を超えることができます。
広範な実験により、さまざまな編集シナリオにわたる DiT4Edit の強力なパフォーマンスが実証され、画像編集をサポートする拡散トランスフォーマーの可能性が強調されています。

要約(オリジナル)

Despite recent advances in UNet-based image editing, methods for shape-aware object editing in high-resolution images are still lacking. Compared to UNet, Diffusion Transformers (DiT) demonstrate superior capabilities to effectively capture the long-range dependencies among patches, leading to higher-quality image generation. In this paper, we propose DiT4Edit, the first Diffusion Transformer-based image editing framework. Specifically, DiT4Edit uses the DPM-Solver inversion algorithm to obtain the inverted latents, reducing the number of steps compared to the DDIM inversion algorithm commonly used in UNet-based frameworks. Additionally, we design unified attention control and patches merging, tailored for transformer computation streams. This integration allows our framework to generate higher-quality edited images faster. Our design leverages the advantages of DiT, enabling it to surpass UNet structures in image editing, especially in high-resolution and arbitrary-size images. Extensive experiments demonstrate the strong performance of DiT4Edit across various editing scenarios, highlighting the potential of Diffusion Transformers in supporting image editing.

arxiv情報

著者 Kunyu Feng,Yue Ma,Bingyuan Wang,Chenyang Qi,Haozhe Chen,Qifeng Chen,Zeyu Wang
発行日 2024-11-05 17:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク