要約
ジオメトリの問題解決は、インテリジェントな教育分野での潜在的なアプリケーションのために、注目を集めています。
テキストはしばしば図が明確にできる曖昧さを導入することが多いという観察に触発されました。このホワイトペーパーは、先行研究で見過ごされている側面であるテキストのあいまいさを解決するために、図式的な情報の力を解き放つ斬新なフレームワークであるPI-GPSを提示します。
具体的には、整流器と検証剤を含むマイクロモジュールを設計します。整流器はMLLMSを使用して、図式的なコンテキストに基づいてテキストを削除しますが、検証者は幾何学的ルールへの整流の出力の遵守を保証し、モデルの幻覚を軽減します。
さらに、明確な正式な言語に基づいて、定理予測因子におけるLLMSの影響を調査します。
経験的結果は、PI-GPSが最先端のモデルを上回り、以前の神経系シンボリックアプローチでジオメトリ3Kのほぼ10 \%の改善を達成することを示しています。
この作業が、マルチモーダル数学的推論におけるテキストの曖昧さを解決することの重要性を強調していることを願っています。これは、パフォーマンスを制限する重要な要因です。
要約(オリジナル)
Geometry problem solving has garnered increasing attention due to its potential applications in intelligent education field. Inspired by the observation that text often introduces ambiguities that diagrams can clarify, this paper presents Pi-GPS, a novel framework that unleashes the power of diagrammatic information to resolve textual ambiguities, an aspect largely overlooked in prior research. Specifically, we design a micro module comprising a rectifier and verifier: the rectifier employs MLLMs to disambiguate text based on the diagrammatic context, while the verifier ensures the rectified output adherence to geometric rules, mitigating model hallucinations. Additionally, we explore the impact of LLMs in theorem predictor based on the disambiguated formal language. Empirical results demonstrate that Pi-GPS surpasses state-of-the-art models, achieving a nearly 10\% improvement on Geometry3K over prior neural-symbolic approaches. We hope this work highlights the significance of resolving textual ambiguity in multimodal mathematical reasoning, a crucial factor limiting performance.
arxiv情報
著者 | Junbo Zhao,Ting Zhang,Jiayu Sun,Mi Tian,Hua Huang |
発行日 | 2025-03-07 16:15:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google