TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation

要約

拡散モデルの最近の進歩により、テキストから高品質で素晴らしい画像を生成できるようになりました。
ただし、現実世界のシナリオで需要が高いマルチターン画像生成は、画像とテキストの間の意味の一貫性や、複数のインタラクティブ ターンにわたる同じ主題のコンテキストの一貫性を維持するという課題に依然として直面しています。
この問題に対処するために、大規模言語モデル (LLM) とテキストから画像への (T2I) モデルを統合してマルチターン画像生成機能を提供する、トレーニング不要のフレームワークである TheaterGen を導入します。
このフレームワーク内で、LLM は「脚本家」として機能し、マルチターン インタラクションを行い、ターゲット画像内の各キャラクターのプロンプトとレイアウト デザインを含む標準化されたプロンプト ブックを生成および管理します。
これらをもとに、シアタージェンはキャラクター画像のリストを生成し、「リハーサル」のような案内情報を抽出します。
その後、プロンプトブックとガイダンス情報を T2I 拡散モデルの逆ノイズ除去プロセスに組み込むことで、シアタージェンは最終的なイメージを生成し、「最終パフォーマンス」を実行します。
TheaterGen は、プロンプトブックとキャラクター画像を効果的に管理することで、合成画像の意味論的および文脈上の一貫性を大幅に向上させます。
さらに、8000 マルチターン命令を備えた専用ベンチマーク CMIGBench (Consistent Multi-turn Image Generation Benchmark) を導入します。
これまでのマルチターン ベンチマークとは異なり、CMIGBench はキャラクターを事前に定義しません。
ストーリー生成とマルチターン編集の両方のタスクが、総合的な評価のために CMIGBench に含まれています。
広範な実験結果は、TheaterGen が最先端の方法を大幅に上回ることを示しています。
これにより、最先端の Mini DALLE 3 モデルのパフォーマンス基準が、文字間の平均類似性で 21%、テキストと画像の平均類似性で 19% 向上しました。

要約(オリジナル)

Recent advances in diffusion models can generate high-quality and stunning images from text. However, multi-turn image generation, which is of high demand in real-world scenarios, still faces challenges in maintaining semantic consistency between images and texts, as well as contextual consistency of the same subject across multiple interactive turns. To address this issue, we introduce TheaterGen, a training-free framework that integrates large language models (LLMs) and text-to-image (T2I) models to provide the capability of multi-turn image generation. Within this framework, LLMs, acting as a ‘Screenwriter’, engage in multi-turn interaction, generating and managing a standardized prompt book that encompasses prompts and layout designs for each character in the target image. Based on these, Theatergen generate a list of character images and extract guidance information, akin to the ‘Rehearsal’. Subsequently, through incorporating the prompt book and guidance information into the reverse denoising process of T2I diffusion models, Theatergen generate the final image, as conducting the ‘Final Performance’. With the effective management of prompt books and character images, TheaterGen significantly improves semantic and contextual consistency in synthesized images. Furthermore, we introduce a dedicated benchmark, CMIGBench (Consistent Multi-turn Image Generation Benchmark) with 8000 multi-turn instructions. Different from previous multi-turn benchmarks, CMIGBench does not define characters in advance. Both the tasks of story generation and multi-turn editing are included on CMIGBench for comprehensive evaluation. Extensive experimental results show that TheaterGen outperforms state-of-the-art methods significantly. It raises the performance bar of the cutting-edge Mini DALLE 3 model by 21% in average character-character similarity and 19% in average text-image similarity.

arxiv情報

著者 Junhao Cheng,Baiqiao Yin,Kaixin Cai,Minbin Huang,Hanhui Li,Yuxin He,Xi Lu,Yue Li,Yifei Li,Yuhao Cheng,Yiqiang Yan,Xiaodan Liang
発行日 2024-04-29 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク