A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from Diagram




– ジオメトリー問題解決(GPS)は、複数のモダルフュージョンと幾何学的知識の適用能力を必要とする高度な数学的推論である。
– 最近のニューラルソルバーは、GPSにおいては大きなポテンシャルを持っているが、図の表示とモダルフュージョンにおいてはまだ短所がある。
– 本研究では、図を基本的なテキスト述語に変換して、図の特徴を効果的に説明し、PGPSNetという新しいニューラルソルバーを提案し、複数のモダル情報を効率的に統合します。
– 構造的および意味的な事前トレーニング、データ拡張、自己制限デコードの組み合わせにより、PGPSNetは幾何学の定理と幾何学的表現の豊富な知識を持っており、幾何学的な理解と推論を促進します。
– さらに、GPSの研究を促進するために、細かな図の注釈と解釈可能なソリューションプログラムの両方にラベルが付けられた新しい大規模でファインアノテーションされたGPSデータセットPGPS9Kを構築しました。
– PGPS9Kと既存のデータセットGeometry3K上の実験により、当社の手法が最先端のニューラルソルバーに優っていることが検証されました。
– 当社のコード、データセット、および付録資料は、 \url{https://github.com/mingliangzhang2018/PGPS} で利用可能です。


Geometry problem solving (GPS) is a high-level mathematical reasoning requiring the capacities of multi-modal fusion and geometric knowledge application. Recently, neural solvers have shown great potential in GPS but still be short in diagram presentation and modal fusion. In this work, we convert diagrams into basic textual clauses to describe diagram features effectively, and propose a new neural solver called PGPSNet to fuse multi-modal information efficiently. Combining structural and semantic pre-training, data augmentation and self-limited decoding, PGPSNet is endowed with rich knowledge of geometry theorems and geometric representation, and therefore promotes geometric understanding and reasoning. In addition, to facilitate the research of GPS, we build a new large-scale and fine-annotated GPS dataset named PGPS9K, labeled with both fine-grained diagram annotation and interpretable solution program. Experiments on PGPS9K and an existing dataset Geometry3K validate the superiority of our method over the state-of-the-art neural solvers. Our code, dataset and appendix material are available at \url{https://github.com/mingliangzhang2018/PGPS}.


著者 Ming-Liang Zhang,Fei Yin,Cheng-Lin Liu
発行日 2023-04-28 10:04:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク