Iterative Multi-granular Image Editing using Diffusion Models

要約

最近のテキストガイド付き画像合成の進歩は、クリエイティブなプロフェッショナルが芸術的で美的に優れたビジュアル資産を生成する方法を劇的に変化させています。このような創造的な試みを完全にサポートするために、プロセスは次のような能力を持つ必要があります:1) 世代を反復的に編集し、2) 望む変更の空間的範囲を制御する(グローバル、ローカル、またはその中間)。我々は、この実用的な問題設定を「反復的多粒度編集」として定式化する。画像合成と編集のための拡散に基づくモデルには大きな進歩があるが、それらはすべてワンショットであり(すなわち、反復編集機能がない)、自然に多粒状制御(すなわち、ローカルからグローバルへの編集の全領域をカバーする)をもたらすものではない。これらの欠点を克服するために、我々はEMILIE: Iterative Multi-granular Image Editorを提案する。EMILIEは、反復編集を容易にするために、事前に訓練された拡散モデルを再利用する新しい潜在的反復戦略を導入する。これは、多粒度制御のための勾配制御操作によって補完される。新たに提案した設定を評価するために、新しいベンチマークデータセットを導入する。EMILIEの実力を明らかにするために、我々のタスクに適応した最近の最先端のアプローチに対して、定量的かつ定性的な徹底的な評価を行う。我々の研究が、この新しく特定された実用的な問題設定に注目されることを願っている。

要約(オリジナル)

Recent advances in text-guided image synthesis has dramatically changed how creative professionals generate artistic and aesthetically pleasing visual assets. To fully support such creative endeavors, the process should possess the ability to: 1) iteratively edit the generations and 2) control the spatial reach of desired changes (global, local or anything in between). We formalize this pragmatic problem setting as Iterative Multi-granular Editing. While there has been substantial progress with diffusion-based models for image synthesis and editing, they are all one shot (i.e., no iterative editing capabilities) and do not naturally yield multi-granular control (i.e., covering the full spectrum of local-to-global edits). To overcome these drawbacks, we propose EMILIE: Iterative Multi-granular Image Editor. EMILIE introduces a novel latent iteration strategy, which re-purposes a pre-trained diffusion model to facilitate iterative editing. This is complemented by a gradient control operation for multi-granular control. We introduce a new benchmark dataset to evaluate our newly proposed setting. We conduct exhaustive quantitatively and qualitatively evaluation against recent state-of-the-art approaches adapted to our task, to being out the mettle of EMILIE. We hope our work would attract attention to this newly identified, pragmatic problem setting.

arxiv情報

著者 K J Joseph,Prateksha Udhayanan,Tripti Shukla,Aishwarya Agarwal,Srikrishna Karanam,Koustava Goswami,Balaji Vasan Srinivasan
発行日 2023-09-01 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク