Self-correcting LLM-controlled Diffusion Models

要約

テキストから画像への生成は、拡散モデルの出現により大きな進歩を遂げました。
フォトリアリスティックな画像を生成できるにもかかわらず、現在のテキストから画像への拡散モデルは、複雑な入力テキスト プロンプトを正確に解釈して従うのが難しいことがよくあります。
最善の努力のみで画像を生成することを目的とした既存のモデルとは対照的に、自己修正 LLM 制御拡散 (SLD) を導入します。
SLD は、入力プロンプトから画像を生成し、プロンプトとの整合性を評価し、生成された画像の不正確さを自己修正するフレームワークです。
LLM コントローラーによって制御される SLD は、テキストから画像への生成を反復的な閉ループ プロセスに変換し、結果として得られる画像の正確さを保証します。
SLD はトレーニングが不要なだけでなく、DALL-E 3 などの API アクセスの背後にある拡散モデルとシームレスに統合して、最先端の拡散モデルのパフォーマンスをさらに向上させることができます。
実験結果は、私たちのアプローチが、特に生成数値計算、属性バインディング、空間関係において、誤った世代の大部分を修正できることを示しています。
さらに、LLM への命令を調整するだけで、SLD は画像編集タスクを実行し、テキストから画像への生成と画像編集パイプラインの間のギャップを埋めることができます。
コードは将来の研究や応用に利用できるようにする予定です。

要約(オリジナル)

Text-to-image generation has witnessed significant progress with the advent of diffusion models. Despite the ability to generate photorealistic images, current text-to-image diffusion models still often struggle to accurately interpret and follow complex input text prompts. In contrast to existing models that aim to generate images only with their best effort, we introduce Self-correcting LLM-controlled Diffusion (SLD). SLD is a framework that generates an image from the input prompt, assesses its alignment with the prompt, and performs self-corrections on the inaccuracies in the generated image. Steered by an LLM controller, SLD turns text-to-image generation into an iterative closed-loop process, ensuring correctness in the resulting image. SLD is not only training-free but can also be seamlessly integrated with diffusion models behind API access, such as DALL-E 3, to further boost the performance of state-of-the-art diffusion models. Experimental results show that our approach can rectify a majority of incorrect generations, particularly in generative numeracy, attribute binding, and spatial relationships. Furthermore, by simply adjusting the instructions to the LLM, SLD can perform image editing tasks, bridging the gap between text-to-image generation and image editing pipelines. We will make our code available for future research and applications.

arxiv情報

著者 Tsung-Han Wu,Long Lian,Joseph E. Gonzalez,Boyi Li,Trevor Darrell
発行日 2023-11-27 18:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク