Prompt-Free Diffusion: Taking ‘Text’ out of Text-to-Image Diffusion Models

要約

Text-to-image (T2I) 研究は、大規模な事前トレーニング済み拡散モデルと多くの新たなパーソナライゼーションおよび編集アプローチのおかげで、過去 1 年間で爆発的に成長しました。
しかし、依然として課題が 1 つあります。それは、テキスト プロンプトのエンジニアリング、およびカスタマイズされた結果を得るために高品質のテキスト プロンプトを検索することは、科学というよりも芸術に近いということです。
さらに、一般的に主張されているように、「画像は千の言葉に匹敵する」 – テキストで目的の画像を説明しようとすると、多くの場合曖昧になり、微妙な視覚的詳細を包括的にカバーできないため、視覚領域からの追加の制御が必要になります。
このペーパーでは、ユーザーにとって煩わしい即時エンジニアリング作業を軽減するために、事前トレーニング済みの T2I 拡散モデルから「テキスト」を取り出すという、大胆な一歩を踏み出しました。
私たちが提案するフレームワークであるプロンプトフリー拡散は、視覚的な入力のみに依存して新しい画像を生成します。これは、「コンテキスト」としての参照画像、オプションの画像構造調整、および初期ノイズを受け取り、テキスト プロンプトはまったくありません。
舞台裏のコア アーキテクチャは Semantic Context Encoder (SeeCoder) であり、一般的に使用されている CLIP ベースまたは LLM ベースのテキスト エンコーダを置き換えます。
SeeCoder は再利用できるため、便利なドロップイン コンポーネントにもなります。ある T2I モデルで SeeCoder を事前トレーニングし、それを別の T2I モデルで再利用することもできます。
広範な実験を通じて、プロンプトフリー拡散は、(i) 以前のサンプルベースの画像合成アプローチよりも優れたパフォーマンスを発揮することが実験的に判明しています。
(ii) ベスト プラクティスに従ったプロンプトを使用して、最先端の T2I モデルと同等のパフォーマンスを発揮します。
(iii) アニメ フィギュアの生成や仮想試着など、他の下流アプリケーションに自然に拡張可能であり、品質も期待できます。
私たちのコードとモデルは、https://github.com/SHI-Labs/Prompt-Free-Diffusion でオープンソース化されています。

要約(オリジナル)

Text-to-image (T2I) research has grown explosively in the past year, owing to the large-scale pre-trained diffusion models and many emerging personalization and editing approaches. Yet, one pain point persists: the text prompt engineering, and searching high-quality text prompts for customized results is more art than science. Moreover, as commonly argued: ‘an image is worth a thousand words’ – the attempt to describe a desired image with texts often ends up being ambiguous and cannot comprehensively cover delicate visual details, hence necessitating more additional controls from the visual domain. In this paper, we take a bold step forward: taking ‘Text’ out of a pre-trained T2I diffusion model, to reduce the burdensome prompt engineering efforts for users. Our proposed framework, Prompt-Free Diffusion, relies on only visual inputs to generate new images: it takes a reference image as ‘context’, an optional image structural conditioning, and an initial noise, with absolutely no text prompt. The core architecture behind the scene is Semantic Context Encoder (SeeCoder), substituting the commonly used CLIP-based or LLM-based text encoder. The reusability of SeeCoder also makes it a convenient drop-in component: one can also pre-train a SeeCoder in one T2I model and reuse it for another. Through extensive experiments, Prompt-Free Diffusion is experimentally found to (i) outperform prior exemplar-based image synthesis approaches; (ii) perform on par with state-of-the-art T2I models using prompts following the best practice; and (iii) be naturally extensible to other downstream applications such as anime figure generation and virtual try-on, with promising quality. Our code and models are open-sourced at https://github.com/SHI-Labs/Prompt-Free-Diffusion.

arxiv情報

著者 Xingqian Xu,Jiayi Guo,Zhangyang Wang,Gao Huang,Irfan Essa,Humphrey Shi
発行日 2023-05-25 16:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク