要約
Text-to-Image (T2I) の生成は、過去数年間で大幅に増加しました。
それにもかかわらず、T2I モデルを使用した図の生成に関する研究はほとんど行われていません。
図は、構造的に豊富で空間的に複雑な視覚化 (たとえば、関連するオブジェクト、テキスト ラベル、方向矢印/線などの密集した組み合わせ) を使用して情報を説明する記号/概略表現です。
既存の最先端の T2I モデルは、多くのオブジェクトが矢印や線などの複雑な関係を介して密に接続されている場合、きめ細かいオブジェクト レイアウト制御が欠如しているため、図の生成に失敗することが多く、また、わかりやすいテキスト ラベルのレンダリングにも失敗することがよくあります。
このギャップに対処するために、LLM のレイアウト ガイダンス機能を活用してより正確な図を生成する、新しい 2 段階のテキストから図への生成フレームワークである DiagrammerGPT を紹介します。
最初の段階では、LLM を使用して「ダイアグラム プラン」を生成し、(プランナーと監査人のフィードバック ループで) 繰り返し改良します。
第 2 段階では、ダイアグラム ジェネレーター DiagramGLIGEN とテキスト ラベル レンダリング モジュールを使用して、ダイアグラム プランに従ってダイアグラム (クリア テキスト ラベル付き) を生成します。
テキストから図への生成タスクのベンチマークを行うために、AI2D データセット上に構築された高密度の注釈付き図データセットである AI2D-Caption を導入します。
DiagrammerGPT フレームワークがより正確な図を生成し、既存の T2I モデルを上回るパフォーマンスを示すことを示します。
また、オープンドメイン図の生成、マルチプラットフォームのベクター グラフィック図の生成、人間参加型編集、マルチモーダル プランナー/監査 LLM などの包括的な分析も提供します。
要約(オリジナル)
Text-to-image (T2I) generation has seen significant growth over the past few years. Despite this, there has been little work on generating diagrams with T2I models. A diagram is a symbolic/schematic representation that explains information using structurally rich and spatially complex visualizations (e.g., a dense combination of related objects, text labels, directional arrows/lines, etc.). Existing state-of-the-art T2I models often fail at diagram generation because they lack fine-grained object layout control when many objects are densely connected via complex relations such as arrows/lines, and also often fail to render comprehensible text labels. To address this gap, we present DiagrammerGPT, a novel two-stage text-to-diagram generation framework leveraging the layout guidance capabilities of LLMs to generate more accurate diagrams. In the first stage, we use LLMs to generate and iteratively refine ‘diagram plans’ (in a planner-auditor feedback loop). In the second stage, we use a diagram generator, DiagramGLIGEN, and a text label rendering module to generate diagrams (with clear text labels) following the diagram plans. To benchmark the text-to-diagram generation task, we introduce AI2D-Caption, a densely annotated diagram dataset built on top of the AI2D dataset. We show that our DiagrammerGPT framework produces more accurate diagrams, outperforming existing T2I models. We also provide comprehensive analysis, including open-domain diagram generation, multi-platform vector graphic diagram generation, human-in-the-loop editing, and multimodal planner/auditor LLMs.
arxiv情報
著者 | Abhay Zala,Han Lin,Jaemin Cho,Mohit Bansal |
発行日 | 2024-07-15 16:32:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google