DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning

要約

Text-to-Image (T2I) の生成は、過去数年間で大幅に増加しました。
それにもかかわらず、T2I モデルを使用した図の生成に関する研究はほとんど行われていません。
図は、構造的に豊富で空間的に複雑な視覚化 (たとえば、関連するオブジェクト、テキスト ラベル、方向矢印、接続線などの密集した組み合わせ) を使用して情報を説明する記号/概略表現です。
既存の最先端の T2I モデルは、多くのオブジェクトが矢印や線などの複雑な関係を介して密に接続されている場合、きめ細かいオブジェクト レイアウト制御が欠如しているため、図の生成に失敗することが多く、また、わかりやすいテキスト ラベルのレンダリングにも失敗することがよくあります。
このギャップに対処するために、LLM (GPT-4 など) のレイアウト ガイダンス機能を活用して、より正確なオープン ドメイン、オープン プラットフォームの図を生成する、新しい 2 段階のテキストから図への生成フレームワークである DiagrammerGPT を紹介します。
最初の段階では、LLM を使用して、すべてのエンティティ (オブジェクトとテキスト ラベル)、それらの関係 (矢印または線)、およびそれらの境界ボックスを記述する「ダイアグラム プラン」を (プランナーと監査人のフィードバック ループで) 生成し、繰り返し改良します。
レイアウト。
第 2 段階では、ダイアグラム ジェネレーター DiagramGLIGEN とテキスト ラベル レンダリング モジュールを使用して、ダイアグラム プランに従ってダイアグラムを生成します。
テキストから図への生成タスクのベンチマークを行うために、AI2D データセット上に構築された高密度の注釈付き図データセットである AI2D-Caption を導入します。
DiagrammerGPT フレームワークがより正確な図を生成し、既存の T2I モデルを上回るパフォーマンスを示すことを定量的および定性的に示します。
また、オープンドメインのダイアグラム生成、さまざまなプラットフォームでのベクトル グラフィック ダイアグラムの生成、ヒューマンインザループのダイアグラム計画編集、マルチモーダル プランナー/監査 LLM (GPT-4Vision など) などの包括的な分析も提供します。
私たちの研究が、T2I モデルと LLM を介したダイアグラム生成に関するさらなる研究に刺激を与えることができれば幸いです。

要約(オリジナル)

Text-to-image (T2I) generation has seen significant growth over the past few years. Despite this, there has been little work on generating diagrams with T2I models. A diagram is a symbolic/schematic representation that explains information using structurally rich and spatially complex visualizations (e.g., a dense combination of related objects, text labels, directional arrows, connection lines, etc.). Existing state-of-the-art T2I models often fail at diagram generation because they lack fine-grained object layout control when many objects are densely connected via complex relations such as arrows/lines and also often fail to render comprehensible text labels. To address this gap, we present DiagrammerGPT, a novel two-stage text-to-diagram generation framework that leverages the layout guidance capabilities of LLMs (e.g., GPT-4) to generate more accurate open-domain, open-platform diagrams. In the first stage, we use LLMs to generate and iteratively refine ‘diagram plans’ (in a planner-auditor feedback loop) which describe all the entities (objects and text labels), their relationships (arrows or lines), and their bounding box layouts. In the second stage, we use a diagram generator, DiagramGLIGEN, and a text label rendering module to generate diagrams following the diagram plans. To benchmark the text-to-diagram generation task, we introduce AI2D-Caption, a densely annotated diagram dataset built on top of the AI2D dataset. We show quantitatively and qualitatively that our DiagrammerGPT framework produces more accurate diagrams, outperforming existing T2I models. We also provide comprehensive analysis including open-domain diagram generation, vector graphic diagram generation in different platforms, human-in-the-loop diagram plan editing, and multimodal planner/auditor LLMs (e.g., GPT-4Vision). We hope our work can inspire further research on diagram generation via T2I models and LLMs.

arxiv情報

著者 Abhay Zala,Han Lin,Jaemin Cho,Mohit Bansal
発行日 2023-10-18 17:37:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク