Click2Mask: Local Editing with Dynamic Mask Generation

要約

生成モデルの最近の進歩により、画像の生成と編集に革命が起こり、専門家でなくてもこれらのタスクにアクセスできるようになりました。
このペーパーでは、ローカル画像編集、特に大まかに指定された領域に新しいコンテンツを追加するタスクに焦点を当てます。
既存の方法では、多くの場合、正確なマスクや位置の詳細な説明が必要ですが、これは煩雑でエラーが発生しやすい可能性があります。
私たちは、(コンテンツの説明に加えて) 参照点を 1 つだけ必要とすることでローカル編集プロセスを簡素化する新しいアプローチである Click2Mask を提案します。
マスクは、マスクされた CLIP ベースのセマンティック損失によって導かれ、ブレンド潜在拡散 (BLD) プロセス中にこのポイントの周りで動的に成長します。
Click2Mask は、セグメンテーション ベースおよび微調整に依存する手法の限界を超え、よりユーザー フレンドリーでコンテキストに即した正確なソリューションを提供します。
私たちの実験は、Click2Mask がユーザーの労力を最小限に抑えるだけでなく、人間の判断と自動メトリクスの両方に従って、SoTA 手法と比較して競争力のある、または優れたローカル画像操作結果を提供することを示しています。
主な貢献には、ユーザー入力の簡素化、既存のセグメントに制約されずにオブジェクトを自由に追加できる機能、および他の編集方法内でのダイナミック マスク アプローチの統合の可能性が含まれます。

要約(オリジナル)

Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.

arxiv情報

著者 Omer Regev,Omri Avrahami,Dani Lischinski
発行日 2024-09-12 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク