要約
数学的推論は、AI モデル、特に言語信号と視覚信号の両方を必要とする幾何学問題にとって依然として継続的な課題です。
ほとんどの MLLM のビジョン エンコーダは自然のシーンでトレーニングされるため、幾何学図を理解するのに苦労することが多く、幾何学の問題解決においてはテキストのみを処理する LLM と比べて性能が劣ります。
この制限は、幾何学的関係を表現するための効果的な方法が欠如していることによってさらに大きくなります。
これらの問題に対処するために、視覚的特徴、幾何形式言語、および自然言語表現を統合する新しいフレームワークであるダイアグラム形式化拡張幾何問題ソルバー (DFE-GPS) を導入します。
私たちは、新しい合成データ アプローチを提案し、幾何学的構造をより深く理解するためにビジョン エンコーダーを強化するように設計された、形式言語と自然言語の両方のキャプションで注釈が付けられた大規模な幾何学データセット SynthGeo228K を作成します。
私たちのフレームワークは、MLLM の幾何学図を処理する能力を向上させ、formgeo7k データセット上のオープンエンドのタスクにアプリケーションを拡張します。
要約(オリジナル)
Mathematical reasoning remains an ongoing challenge for AI models, especially for geometry problems that require both linguistic and visual signals. As the vision encoders of most MLLMs are trained on natural scenes, they often struggle to understand geometric diagrams, performing no better in geometry problem solving than LLMs that only process text. This limitation is amplified by the lack of effective methods for representing geometric relationships. To address these issues, we introduce the Diagram Formalization Enhanced Geometry Problem Solver (DFE-GPS), a new framework that integrates visual features, geometric formal language, and natural language representations. We propose a novel synthetic data approach and create a large-scale geometric dataset, SynthGeo228K, annotated with both formal and natural language captions, designed to enhance the vision encoder for a better understanding of geometric structures. Our framework improves MLLMs’ ability to process geometric diagrams and extends their application to open-ended tasks on the formalgeo7k dataset.
arxiv情報
著者 | Zeren Zhang,Jo-Ku Cheng,Jingyang Deng,Lu Tian,Jinwen Ma,Ziran Qin,Xiaokai Zhang,Na Zhu,Tuo Leng |
発行日 | 2024-09-09 02:46:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google