LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models

要約

テキストから画像への拡散モデルの最近の進歩により、リアルで多様な画像の生成において目覚ましい成果が得られました。
ただし、これらのモデルは、数値計算や空間推論を含む複雑なプロンプトに依然として対処できません。
この研究は、拡散モデルにおける迅速な理解機能を強化することを提案しています。
私たちの手法では、事前トレーニング済みの大規模言語モデル (LLM) を利用して、新しい 2 段階のプロセスで根拠のある生成を行います。
最初の段階では、LLM は、目的の画像を説明する指定されたプロンプトから、キャプション付きの境界ボックスで構成されるシーン レイアウトを生成します。
第 2 段階では、新しいコントローラーが、レイアウトに基づいた画像生成のための既製の拡散モデルをガイドします。
どちらのステージでも、追加のモデル パラメーターの最適化を行わずに、既存の事前トレーニング済みモデルを利用します。
私たちの方法は、さまざまな機能を必要とするプロンプトに従って画像を正確に生成する点で、ベース拡散モデルやいくつかの強力なベースラインよりも大幅に優れており、4 つのタスク全体で平均して生成精度が 2 倍になっています。
さらに、私たちの方法は命令ベースのマルチラウンドシーン仕様を可能にし、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。
私たちは、より複雑なプロンプトに正確に従うことで、私たちの方法がユーザーの創造性を解き放つことを期待しています。

要約(オリジナル)

Recent advancements in text-to-image diffusion models have yielded impressive results in generating realistic and diverse images. However, these models still struggle with complex prompts, such as those that involve numeracy and spatial reasoning. This work proposes to enhance prompt understanding capabilities in diffusion models. Our method leverages a pretrained large language model (LLM) for grounded generation in a novel two-stage process. In the first stage, the LLM generates a scene layout that comprises captioned bounding boxes from a given prompt describing the desired image. In the second stage, a novel controller guides an off-the-shelf diffusion model for layout-grounded image generation. Both stages utilize existing pretrained models without additional model parameter optimization. Our method significantly outperforms the base diffusion model and several strong baselines in accurately generating images according to prompts that require various capabilities, doubling the generation accuracy across four tasks on average. Furthermore, our method enables instruction-based multi-round scene specification and can handle prompts in languages not supported by the underlying diffusion model. We anticipate that our method will unleash users’ creativity by accurately following more complex prompts.

arxiv情報

著者 Long Lian,Boyi Li,Adam Yala,Trevor Darrell
発行日 2023-10-10 17:46:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク