RegionDrag: Fast Region-Based Image Editing with Diffusion Models

要約

DragDiffusion のようなポイントドラッグベースの画像編集方法は、大きな注目を集めています。
ただし、ポイント ドラッグ ベースのアプローチは、ポイント ベースの編集命令がまばらであるため、計算オーバーヘッドとユーザーの意図の誤解に悩まされます。
この論文では、これらの制限を克服するために、領域ベースのコピー アンド ペーストのドラッグ手法である RegionDrag を提案します。
RegionDrag を使用すると、ユーザーはハンドル領域とターゲット領域の形式で編集指示を表現できるため、より正確な制御が可能になり、曖昧さが軽減されます。
さらに、領域ベースの操作は 1 回の反復で編集を完了し、ポイント ドラッグ ベースの方法よりもはるかに高速です。
また、編集中の安定性を高めるためにアテンションスワッピング手法も組み込まれています。
私たちのアプローチを検証するために、既存のポイント ドラッグ ベースのデータセットを領域ベースのドラッグ命令で拡張します。
実験結果は、RegionDrag が、速度、精度、ユーザーの意図との整合性の点で、既存のポイント ドラッグ ベースのアプローチよりも優れていることを示しています。
驚くべきことに、RegionDrag は、解像度 512×512 の画像の編集を 2 秒未満で完了します。これは、DragDiffusion よりも 100 倍以上高速でありながら、より優れたパフォーマンスを実現します。
プロジェクトページ: https://visual-ai.github.io/regiondrag

要約(オリジナル)

Point-drag-based image editing methods, like DragDiffusion, have attracted significant attention. However, point-drag-based approaches suffer from computational overhead and misinterpretation of user intentions due to the sparsity of point-based editing instructions. In this paper, we propose a region-based copy-and-paste dragging method, RegionDrag, to overcome these limitations. RegionDrag allows users to express their editing instructions in the form of handle and target regions, enabling more precise control and alleviating ambiguity. In addition, region-based operations complete editing in one iteration and are much faster than point-drag-based methods. We also incorporate the attention-swapping technique for enhanced stability during editing. To validate our approach, we extend existing point-drag-based datasets with region-based dragging instructions. Experimental results demonstrate that RegionDrag outperforms existing point-drag-based approaches in terms of speed, accuracy, and alignment with user intentions. Remarkably, RegionDrag completes the edit on an image with a resolution of 512×512 in less than 2 seconds, which is more than 100x faster than DragDiffusion, while achieving better performance. Project page: https://visual-ai.github.io/regiondrag.

arxiv情報

著者 Jingyi Lu,Xinghui Li,Kai Han
発行日 2024-07-25 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク