Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

要約

既存のテキストから画像への (T2I) 拡散モデルは通常、複雑なプロンプト、特に数量、オブジェクトと属性のバインディング、および複数の主題の説明を伴うプロンプトを解釈するのに苦労します。
この研究では、テキストを画像にデコードする際のミドルウェアとしてセマンティック パネルを導入し、ジェネレーターが指示にうまく従うようにサポートします。
このパネルは、大規模な言語モデルを使用して入力テキストから解析された視覚的概念を配置することによって取得され、テキスト条件を補完する詳細な制御信号としてノイズ除去ネットワークに注入されます。
テキストからパネルへの学習を促進するために、完全に自動化されたデータ準備パイプラインを伴う、慎重に設計されたセマンティック書式設定プロトコルを考案しました。
このような設計のおかげで、Ranni と呼ばれる私たちのアプローチは、テキストの制御性に関して事前トレーニングされた T2I ジェネレーターを強化することに成功しました。
さらに重要なことは、生成ミドルウェアの導入により、より便利な対話形式 (つまり、パネル内の要素を直接調整したり、言語命令を使用したり) がもたらされ、さらにユーザーが生成を細かくカスタマイズできるようになりました。これに基づいて、私たちは実用的なシステムを開発し、
連続生成とチャットベースの編集でその可能性を実証します。

要約(オリジナル)

Existing text-to-image (T2I) diffusion models usually struggle in interpreting complex prompts, especially those with quantity, object-attribute binding, and multi-subject descriptions. In this work, we introduce a semantic panel as the middleware in decoding texts to images, supporting the generator to better follow instructions. The panel is obtained through arranging the visual concepts parsed from the input text by the aid of large language models, and then injected into the denoising network as a detailed control signal to complement the text condition. To facilitate text-to-panel learning, we come up with a carefully designed semantic formatting protocol, accompanied by a fully-automatic data preparation pipeline. Thanks to such a design, our approach, which we call Ranni, manages to enhance a pre-trained T2I generator regarding its textual controllability. More importantly, the introduction of the generative middleware brings a more convenient form of interaction (i.e., directly adjusting the elements in the panel or using language instructions) and further allows users to finely customize their generation, based on which we develop a practical system and showcase its potential in continuous generation and chatting-based editing.

arxiv情報

著者 Yutong Feng,Biao Gong,Di Chen,Yujun Shen,Yu Liu,Jingren Zhou
発行日 2023-11-28 17:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク