TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

要約

数学的な幾何学的問題解決(GPS)には、多くの場合、マルチモーダル情報の効果的な統合と検証可能な論理コヒーレンスが必要です。
一般的な問題解決における大規模な言語モデルの急速な開発にもかかわらず、特に合成GPSベンチマークの脱出は自己検証されておらず、LLMSの幻想のためにノイズと自己矛盾した情報が含まれていることが多いという事実を考えると、方法論とベンチマークの両方を考慮して解決されていません。
この論文では、問題生成のためにTrustGeogenと呼ばれるスケーラブルなデータエンジンを提案し、原則的なベンチマークを提供するための正式な検証を提案します。
エンジンは、4つの主要なイノベーションを通じて幾何学的データを合成します。1)マルチモーダルに合わせた生成の図、テキストの説明、および段階的なソリューション。
2)ルールに準拠した推論パスを確保する正式な検証。
3)再帰状態の生成を介した複雑さのエスカレーションを可能にするブートストラップメカニズムと4)当社の考案されたGeoexploreシリーズアルゴリズムは、マルチソリューションバリアントと自己反射バックトラッキングトレースを同時に生成します。
正式な論理検証により、TrustGeogenは、GeoTrust-200Kデータセットを保証されたモダリティの完全性とGeoTrust-Testテストセットを生成します。
実験により、最先端のモデルは地盤テストで49.17%の精度のみを達成し、その評価の厳格さを実証していることが明らかになりました。
重要なことに、ジオラストで訓練されたモデルは、geoqaでoodの一般化を達成し、Openai-O1によって注釈が付けられた擬似ラベルと比較して論理的な矛盾を大幅に削減します。
私たちのコードは、https://github.com/alpha-innovator/trustgeogenで入手できます

要約(オリジナル)

Mathematical geometric problem solving (GPS) often requires effective integration of multimodal information and verifiable logical coherence. Despite the fast development of large language models in general problem solving, it remains unresolved regarding with both methodology and benchmarks, especially given the fact that exiting synthetic GPS benchmarks are often not self-verified and contain noise and self-contradicted information due to the illusion of LLMs. In this paper, we propose a scalable data engine called TrustGeoGen for problem generation, with formal verification to provide a principled benchmark, which we believe lays the foundation for the further development of methods for GPS. The engine synthesizes geometric data through four key innovations: 1) multimodal-aligned generation of diagrams, textual descriptions, and stepwise solutions; 2) formal verification ensuring rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling complexity escalation via recursive state generation and 4) our devised GeoExplore series algorithms simultaneously produce multi-solution variants and self-reflective backtracking traces. By formal logical verification, TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity, along with GeoTrust-test testset. Experiments reveal the state-of-the-art models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its evaluation stringency. Crucially, models trained on GeoTrust achieve OOD generalization on GeoQA, significantly reducing logical inconsistencies relative to pseudo-label annotated by OpenAI-o1. Our code is available at https://github.com/Alpha-Innovator/TrustGeoGen

arxiv情報

著者 Daocheng Fu,Zijun Chen,Renqiu Xia,Qi Liu,Yuan Feng,Hongbin Zhou,Renrui Zhang,Shiyang Feng,Peng Gao,Junchi Yan,Botian Shi,Bo Zhang,Yu Qiao
発行日 2025-04-22 10:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク