Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

要約

GPT-4V(ision)による画像設計・自動生成を用いたマルチモーダルな反復的自己洗練を可能にするシステム「Idea to Image」を紹介します。
人間は、反復的な探索を通じて、さまざまな Text-to-Image (T2I) モデルの特性を迅速に識別できます。
これにより、高レベルの生成アイデアを、優れた画像を生成できる効果的な T2I プロンプトに効率的に変換できるようになります。
私たちは、大規模マルチモーダル モデル (LMM) に基づくシステムが、自己洗練の試行を通じて未知のモデルや環境を探索できる類似のマルチモーダル自己洗練能力を開発できるかどうかを調査します。
Idea2Img は、ドラフト イメージを合成するために改訂された T2I プロンプトを周期的に生成し、プロンプト改訂のための方向性フィードバックを提供します。両方とも、調査された T2I モデルの特性の記憶に条件付けされます。
反復的な自己洗練により、Idea2Img にはバニラ T2I モデルに比べてさまざまな利点がもたらされます。
特に、Idea2Img は、インターリーブされた画像とテキストのシーケンスを使用して入力アイデアを処理し、デザイン指示に従ってアイデアに従い、より優れた意味論的および視覚的品質の画像を生成できます。
ユーザーの好みの調査では、自動画像設計と生成におけるマルチモーダルな反復的自己調整の有効性が検証されています。

要約(オリジナル)

We introduce “Idea to Image,” a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model’s characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.

arxiv情報

著者 Zhengyuan Yang,Jianfeng Wang,Linjie Li,Kevin Lin,Chung-Ching Lin,Zicheng Liu,Lijuan Wang
発行日 2024-08-14 17:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク