LDEdit: Towards Generalized Text Guided Image Manipulation via Latent Diffusion Models

要約

視覚言語モデルの研究は近年急速に発展しており、画像の生成や操作に自然言語ベースのインタフェースを提供できるようになった。既存のテキストガイド付き操作技術の多くは、特定のクラスの画像に限定されており、異なるスタイルやドメインに移行するために微調整が必要な場合が多い。しかしながら、柔軟なテキスト入力を持つ単一のモデルを用いた汎用的な画像操作が非常に望まれている。最近の研究では、事前に学習した視覚言語エンコーダを用いて、汎用画像データセットで学習した生成モデルを導くことでこの課題に取り組んでいる。このアプローチは有望ではあるが、各入力に対して高価な最適化を必要とする。本研究では、テキストプロンプトからの一般的な画像操作のタスクに対して、最適化不要の手法を提案する。本手法では、テキストから画像への変換に最近のLDM(Latent Diffusion Models)を利用し、ゼロショットでのテキストガイド操作を実現する。本アプローチでは、低次元の潜在空間における決定論的な順拡散を採用し、逆拡散の条件となるターゲットテキストを与えるだけで、所望の操作を実現する。本手法はLDEditと呼ばれる。本手法の応用例として、意味的な画像操作と芸術的なスタイルの伝達を挙げることができる。本手法は、様々な領域の画像操作を実現し、複数の属性を簡単に編集することが可能である。また、多くの実験により、本手法が競合するベースラインよりも有効であることを示す。

要約(オリジナル)

Research in vision-language models has seen rapid developments off-late, enabling natural language-based interfaces for image generation and manipulation. Many existing text guided manipulation techniques are restricted to specific classes of images, and often require fine-tuning to transfer to a different style or domain. Nevertheless, generic image manipulation using a single model with flexible text inputs is highly desirable. Recent work addresses this task by guiding generative models trained on the generic image datasets using pretrained vision-language encoders. While promising, this approach requires expensive optimization for each input. In this work, we propose an optimization-free method for the task of generic image manipulation from text prompts. Our approach exploits recent Latent Diffusion Models (LDM) for text to image generation to achieve zero-shot text guided manipulation. We employ a deterministic forward diffusion in a lower dimensional latent space, and the desired manipulation is achieved by simply providing the target text to condition the reverse diffusion process. We refer to our approach as LDEdit. We demonstrate the applicability of our method on semantic image manipulation and artistic style transfer. Our method can accomplish image manipulation on diverse domains and enables editing multiple attributes in a straightforward fashion. Extensive experiments demonstrate the benefit of our approach over competing baselines.

arxiv情報

著者 Paramanand Chandramouli,Kanchana Vaishnavi Gandikota
発行日 2022-10-05 13:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク