要約
幾何学的図は、数学的および科学的概念を伝える上で重要ですが、従来の図の生成方法は、多くの場合、マニュアルでリソース集約的です。
テキストからイメージの生成により、フォトリアリスティックな画像が進んでいますが、正確な幾何学的図を作成することは、正確な空間的関係の必要性と幾何学固有のデータセットの希少性のために依然として課題です。
このペーパーでは、テキストの説明から幾何学的図を生成するためのトレーニングフリーのフレームワークであるMagicGeoを紹介します。
MagicGeoは、図の生成プロセスを座標最適化問題として定式化し、正式な言語ソルバーを介した幾何学的正確性を確保し、座標を認識した生成を採用します。
フレームワークは、大規模な言語モデルの強力な言語翻訳能力を活用し、正式な数学的解決により幾何学的な正確性が保証されます。
さらに、220の幾何学的図の説明のベンチマークデータセットであるMagicGeobenchを紹介し、MagicGeoが定性的評価と定量的評価の両方で現在の方法を上回ることを実証します。
この作業は、自動化された図生成のためのスケーラブルで正確なソリューションを提供し、教育および学術アプリケーションに大きな意味を持ちます。
要約(オリジナル)
Geometric diagrams are critical in conveying mathematical and scientific concepts, yet traditional diagram generation methods are often manual and resource-intensive. While text-to-image generation has made strides in photorealistic imagery, creating accurate geometric diagrams remains a challenge due to the need for precise spatial relationships and the scarcity of geometry-specific datasets. This paper presents MagicGeo, a training-free framework for generating geometric diagrams from textual descriptions. MagicGeo formulates the diagram generation process as a coordinate optimization problem, ensuring geometric correctness through a formal language solver, and then employs coordinate-aware generation. The framework leverages the strong language translation capability of large language models, while formal mathematical solving ensures geometric correctness. We further introduce MagicGeoBench, a benchmark dataset of 220 geometric diagram descriptions, and demonstrate that MagicGeo outperforms current methods in both qualitative and quantitative evaluations. This work provides a scalable, accurate solution for automated diagram generation, with significant implications for educational and academic applications.
arxiv情報
著者 | Junxiao Wang,Ting Zhang,Heng Yu,Jingdong Wang,Hua Huang |
発行日 | 2025-02-19 16:20:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google