DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation

要約

テキストからイメージ(T2I)生成モデルは、近年大幅に進歩しています。
ただし、これらのモデルとの効果的な相互作用は、専門化された迅速なエンジニアリング知識の必要性と多ターン画像生成を実行できないため、平均的なユーザーにとって困難です。
最近の試みでは、ユーザーの自然言語の指示を実現するために、マルチモーダルの大手言語モデル(MLLMS)をT2Iモデルに装備しようとしました。
したがって、MLLMSの出力モダリティが拡張され、MLLMSの強力なマルチモーダル理解能力のおかげで、T2Iモデルのマルチターン生成品質が強化されます。
ただし、これらの作品の多くは、出力モダリティの数が増加し、会話がより深くなるにつれて、正しい出力モダリティを特定し、それに応じてコヒーレント画像を生成する際の課題に直面しています。
したがって、既製のMLLMSとT2Iモデルを整列させる効果的なパイプラインであるDialogenを提案し、マルチターンテキストからイメージの生成のためのマルチモーダルインタラクティブダイアログシステム(MIDS)を構築します。
これは、迅速なアライメント、慎重なトレーニングデータのキュレーション、およびエラー修正の描画で構成されています。
さらに、中間のフィールドが繁栄するにつれて、出力モダリティの正確性とマルチモーダル出力コヒーレンスの観点からMIDSを公正に評価するために、包括的なベンチマークが緊急に必要です。
この問題に対処するために、MLLMSが画像編集をサポートする正確でコヒーレントなマルチモーダルコンテンツを生成する能力を評価するために設計された包括的なバイリンガルベンチマークであるマルチモーダルダイアログベンチマーク(Dialogben)を紹介します。
モダリティを切り替えるモデルの能力と出力画像の一貫性を測定するための2つの評価メトリックが含まれています。
ダイアログベンとユーザー調査に関する当社の広範な実験は、他の最先端のモデルと比較して対話者の有効性を示しています。

要約(オリジナル)

Text-to-image (T2I) generation models have significantly advanced in recent years. However, effective interaction with these models is challenging for average users due to the need for specialized prompt engineering knowledge and the inability to perform multi-turn image generation, hindering a dynamic and iterative creation process. Recent attempts have tried to equip Multi-modal Large Language Models (MLLMs) with T2I models to bring the user’s natural language instructions into reality. Hence, the output modality of MLLMs is extended, and the multi-turn generation quality of T2I models is enhanced thanks to the strong multi-modal comprehension ability of MLLMs. However, many of these works face challenges in identifying correct output modalities and generating coherent images accordingly as the number of output modalities increases and the conversations go deeper. Therefore, we propose DialogGen, an effective pipeline to align off-the-shelf MLLMs and T2I models to build a Multi-modal Interactive Dialogue System (MIDS) for multi-turn Text-to-Image generation. It is composed of drawing prompt alignment, careful training data curation, and error correction. Moreover, as the field of MIDS flourishes, comprehensive benchmarks are urgently needed to evaluate MIDS fairly in terms of output modality correctness and multi-modal output coherence. To address this issue, we introduce the Multi-modal Dialogue Benchmark (DialogBen), a comprehensive bilingual benchmark designed to assess the ability of MLLMs to generate accurate and coherent multi-modal content that supports image editing. It contains two evaluation metrics to measure the model’s ability to switch modalities and the coherence of the output images. Our extensive experiments on DialogBen and user study demonstrate the effectiveness of DialogGen compared with other State-of-the-Art models.

arxiv情報

著者 Minbin Huang,Yanxin Long,Xinchi Deng,Ruihang Chu,Jiangfeng Xiong,Xiaodan Liang,Hong Cheng,Qinglin Lu,Wei Liu
発行日 2025-04-18 11:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク