要約
現在のテキストからイメージ(T2I)生成モデルは有望な結果を達成しますが、テキストプロンプトで暗示されている知識が不確実であるシナリオでは失敗します。
たとえば、2月にリリースされたT2Iモデルは、キャラクターのデザインとスタイルがモデルに不確実であるため、4月に初演される映画に適したポスターを生成するのに苦労します。
この問題を解決するために、Internet-Augmented Text-to-Imageの生成(IA-T2I)フレームワークを提案して、T2Iモデルに参照画像を提供することにより、このような不確実な知識について明確にします。
具体的には、アクティブな検索モジュールは、指定されたテキストプロンプトに基づいて参照画像が必要かどうかを判断するように設計されています。
階層画像選択モジュールが導入され、T2Iモデルを強化するために画像検索エンジンによって返される最も適切な画像を見つけます。
生成された画像を継続的に評価および改良して、テキストプロンプトとの忠実な整合を確保するための自己反省メカニズムが提示されます。
提案されたフレームワークのパフォーマンスを評価するために、IMG-REF-T2Iという名前のデータセットを収集します。テキストプロンプトには、3つのタイプの不確実な知識が含まれています。(1)既知がまれです。
(2)不明。
(3)あいまいな。
さらに、複雑なプロンプトを慎重に作成して、GPT-4Oをガイドして優先評価を行います。これは、人間の好み評価と同様の評価精度を持つことが示されています。
実験結果は、私たちのフレームワークの有効性を示しており、GPT-4Oを人間の評価で約30%上回ることを示しています。
要約(オリジナル)
Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework’s performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.
arxiv情報
著者 | Chuanhao Li,Jianwen Sun,Yukang Feng,Mingliang Zhai,Yifan Chang,Kaipeng Zhang |
発行日 | 2025-05-21 17:31:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google