PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models

要約

事前に訓練された拡散モデルに基づいて、オブジェクトパーツの最初のテキストベースの画像編集アプローチを提示します。
拡散ベースの画像編集アプローチは、画像セマンティクスの拡散モデルの深い理解を活用して、さまざまな編集を実行します。
ただし、既存の拡散モデルには、多くのオブジェクトパーツの十分な理解がなく、ユーザーが要求した細粒の編集を妨げています。
これに対処するために、事前に訓練された拡散モデルの知識を拡大して、さまざまなオブジェクトパーツを理解できるようにすることを提案し、微調整された編集を実行できるようにします。
これは、効率的なトークン最適化プロセスを介して異なるオブジェクトパーツに対応する特別なテキストトークンを学習することで実現します。
これらのトークンは、編集領域をローカライズするために、各推論ステップで信頼できるローカリゼーションマスクを生成するように最適化されています。
これらのマスクを活用して、編集をシームレスに実行するために、機能ブレンドと適応のしきい値戦略を設計します。
アプローチを評価するために、パーツ編集用のベンチマークと評価プロトコルを確立します。
実験は、私たちのアプローチがすべてのメトリックの既存の編集方法を上回り、実施されたユーザー研究で77〜90%の時間のユーザーが好むことを示しています。

要約(オリジナル)

We present the first text-based image editing approach for object parts based on pre-trained diffusion models. Diffusion-based image editing approaches capitalized on the deep understanding of diffusion models of image semantics to perform a variety of edits. However, existing diffusion models lack sufficient understanding of many object parts, hindering fine-grained edits requested by users. To address this, we propose to expand the knowledge of pre-trained diffusion models to allow them to understand various object parts, enabling them to perform fine-grained edits. We achieve this by learning special textual tokens that correspond to different object parts through an efficient token optimization process. These tokens are optimized to produce reliable localization masks at each inference step to localize the editing region. Leveraging these masks, we design feature-blending and adaptive thresholding strategies to execute the edits seamlessly. To evaluate our approach, we establish a benchmark and an evaluation protocol for part editing. Experiments show that our approach outperforms existing editing methods on all metrics and is preferred by users 77-90% of the time in conducted user studies.

arxiv情報

著者 Aleksandar Cvejic,Abdelrahman Eldesokey,Peter Wonka
発行日 2025-02-06 13:08:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク