GANTASTIC: GAN-based Transfer of Interpretable Directions for Disentangled Image Editing in Text-to-Image Diffusion Models

要約

画像生成モデルの急速な進歩は主に拡散モデルによって推進されており、テキスト プロンプトから高忠実度で多様な画像を生成することに比類のない成功を収めています。
成功にもかかわらず、拡散モデルは画像編集の分野で大きな課題に直面しており、特に無関係な部分をそのままにして画像の特定の属性を対象とした、絡み合っていない編集変更を実行する場合に顕著です。
対照的に、敵対的生成ネットワーク (GAN) は、解釈可能な潜在空間を通じてもつれを解く編集に成功したことで知られています。
特定の制御可能な属性を表す事前トレーニング済み GAN モデルから既存の指示を取得し、これらの指示を拡散ベースのモデルに転送する新しいフレームワークである GANTASTIC を紹介します。
この新しいアプローチは、拡散モデルの特徴である生成品質と多様性を維持するだけでなく、正確で的を絞った画像編集を実行する機能を大幅に強化し、両方の長所を活用します。

要約(オリジナル)

The rapid advancement in image generation models has predominantly been driven by diffusion models, which have demonstrated unparalleled success in generating high-fidelity, diverse images from textual prompts. Despite their success, diffusion models encounter substantial challenges in the domain of image editing, particularly in executing disentangled edits-changes that target specific attributes of an image while leaving irrelevant parts untouched. In contrast, Generative Adversarial Networks (GANs) have been recognized for their success in disentangled edits through their interpretable latent spaces. We introduce GANTASTIC, a novel framework that takes existing directions from pre-trained GAN models-representative of specific, controllable attributes-and transfers these directions into diffusion-based models. This novel approach not only maintains the generative quality and diversity that diffusion models are known for but also significantly enhances their capability to perform precise, targeted image edits, thereby leveraging the best of both worlds.

arxiv情報

著者 Yusuf Dalva,Hidir Yesiltepe,Pinar Yanardag
発行日 2024-03-28 17:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク