DiffusionGPT: LLM-Driven Text-to-Image Generation System

要約

拡散モデルは画像生成の分野に新たな道を切り開き、その結果、オープンソース プラットフォームで共有される高品質のモデルが急増しました。
しかし、現在のテキストから画像へのシステムでは、多くの場合、多様な入力を処理できないか、単一モデルの結果に限定されるという大きな課題が残っています。
現在の統合の試みは、多くの場合、2 つの直交する側面に分類されます。i) 入力段階で多様なプロンプトを解析する。
ii) エキスパート モデルをアクティブにして出力します。
両方の長所を組み合わせるために、私たちは、ラージ言語モデル (LLM) を活用して、さまざまな種類のプロンプトにシームレスに対応し、ドメインエキスパート モデルを統合できる統合生成システムを提供する DiffusionGPT を提案します。
DiffusionGPT は、事前知識に基づいてさまざまな生成モデルのドメイン固有のツリーを構築します。
入力が提供されると、LLM はプロンプトを解析し、Trees-of-Thought を使用して適切なモデルの選択をガイドします。これにより、入力の制約が緩和され、さまざまなドメインにわたって優れたパフォーマンスが確保されます。
さらに、思考ツリーが人間のフィードバックで強化され、モデル選択プロセスを人間の好みに合わせたアドバンテージ データベースを導入します。
広範な実験と比較を通じて、DiffusionGPT の有効性を実証し、さまざまな領域で画像合成の限界を押し上げる可能性を示します。

要約(オリジナル)

Diffusion models have opened up new avenues for the field of image generation, resulting in the proliferation of high-quality models shared on open-source platforms. However, a major challenge persists in current text-to-image systems are often unable to handle diverse inputs, or are limited to single model results. Current unified attempts often fall into two orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate expert model to output. To combine the best of both worlds, we propose DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified generation system capable of seamlessly accommodating various types of prompts and integrating domain-expert models. DiffusionGPT constructs domain-specific Trees for various generative models based on prior knowledge. When provided with an input, the LLM parses the prompt and employs the Trees-of-Thought to guide the selection of an appropriate model, thereby relaxing input constraints and ensuring exceptional performance across diverse domains. Moreover, we introduce Advantage Databases, where the Tree-of-Thought is enriched with human feedback, aligning the model selection process with human preferences. Through extensive experiments and comparisons, we demonstrate the effectiveness of DiffusionGPT, showcasing its potential for pushing the boundaries of image synthesis in diverse domains.

arxiv情報

著者 Jie Qin,Jie Wu,Weifeng Chen,Yuxi Ren,Huixia Li,Hefeng Wu,Xuefeng Xiao,Rui Wang,Shilei Wen
発行日 2024-01-18 15:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク