Click2Mask: Local Editing with Dynamic Mask Generation


私たちは、(コンテンツの説明に加えて) 参照点を 1 つだけ必要とすることでローカル編集プロセスを簡素化する新しいアプローチである Click2Mask を提案します。
マスクは、マスクされた CLIP ベースのセマンティック損失によって導かれ、ブレンド潜在拡散 (BLD) プロセス中にこのポイントの周りで動的に成長します。
Click2Mask は、セグメンテーション ベースおよび微調整に依存する手法の限界を超え、よりユーザー フレンドリーでコンテキストに即した正確なソリューションを提供します。
私たちの実験は、Click2Mask がユーザーの労力を最小限に抑えるだけでなく、人間の判断と自動メトリクスの両方に従って、SoTA 手法と比較して競合または優れたローカル画像操作を可能にすることを示しています。
主な貢献には、ユーザー入力の簡素化、既存のセグメントに制約されずにオブジェクトを自由に追加できる機能、および他の編集方法内でのダイナミック マスク アプローチの統合の可能性が含まれます。


Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also enables competitive or superior local image manipulations compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.


著者 Omer Regev,Omri Avrahami,Dani Lischinski
発行日 2025-01-08 18:59:48+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク