要約
最近、いくつかのポイントベースの画像編集方法 (DragDiffusion、FreeDrag、DragNoise など) が登場し、ユーザーの指示に基づいて正確で高品質な結果が得られます。
ただし、これらの方法では意味情報が十分に活用されていないことが多く、あまり望ましい結果が得られません。
この論文では、より柔軟な編集アプローチを提供し、ユーザーの意図に沿った画像を生成する、新しいマスクフリーのポイントベースの画像編集方法である AdaptiveDrag を提案しました。
具体的には、スーパーピクセル分割による使いやすさを考慮した自動マスク生成モジュールを設計します。
次に、事前トレーニングされた拡散モデルを利用して潜在を最適化し、ハンドル ポイントからターゲット ポイントへのフィーチャのドラッグを可能にします。
入力画像とドラッグ プロセスの間の包括的な接続を確保するために、セマンティック主導の最適化を開発しました。
私たちは、スーパーピクセルセグメンテーションから導出されたポイントと意味領域の位置によって監視される適応ステップを設計します。
この洗練された最適化プロセスにより、より現実的で正確なドラッグ結果も得られます。
さらに、拡散モデルの生成一貫性の制限に対処するために、サンプリング プロセス中に革新的な対応する損失を導入します。
これらの効果的な設計に基づいて、私たちの方法は、単一の入力画像とハンドルとターゲット ポイントのペアのみを使用して、優れた生成結果を提供します。
広範な実験が実施され、提案された方法が、さまざまな領域(動物、人間の顔、土地空間、衣服など)にわたるさまざまなドラッグ命令(サイズ変更、移動、拡張など)の処理において他の方法よりも優れていることが実証されています。
要約(オリジナル)
Recently, several point-based image editing methods (e.g., DragDiffusion, FreeDrag, DragNoise) have emerged, yielding precise and high-quality results based on user instructions. However, these methods often make insufficient use of semantic information, leading to less desirable results. In this paper, we proposed a novel mask-free point-based image editing method, AdaptiveDrag, which provides a more flexible editing approach and generates images that better align with user intent. Specifically, we design an auto mask generation module using super-pixel division for user-friendliness. Next, we leverage a pre-trained diffusion model to optimize the latent, enabling the dragging of features from handle points to target points. To ensure a comprehensive connection between the input image and the drag process, we have developed a semantic-driven optimization. We design adaptive steps that are supervised by the positions of the points and the semantic regions derived from super-pixel segmentation. This refined optimization process also leads to more realistic and accurate drag results. Furthermore, to address the limitations in the generative consistency of the diffusion model, we introduce an innovative corresponding loss during the sampling process. Building on these effective designs, our method delivers superior generation results using only the single input image and the handle-target point pairs. Extensive experiments have been conducted and demonstrate that the proposed method outperforms others in handling various drag instructions (e.g., resize, movement, extension) across different domains (e.g., animals, human face, land space, clothing).
arxiv情報
著者 | DuoSheng Chen,Binghui Chen,Yifeng Geng,Liefeng Bo |
発行日 | 2024-10-16 15:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google