GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

要約

マルチモーダル大規模言語モデル (MLLM) は、一般的なタスクには熟練していますが、図の理解、記号の解釈、複雑な推論の実行が必要な自動幾何学問題解決 (GPS) に苦労しています。
この制限は、自然の画像とテキストに関する事前トレーニングに加え、問題解決プロセスにおける自動検証の欠如から生じます。
さらに、現在の幾何学の専門家は、タスク固有の設計によって制限されており、より広範な幾何学的な問題に対してはあまり効果的ではありません。
この目的を達成するために、幾何学的理解と推論タスクに焦点を当てたマルチモーダル大規模モデルである GeoX を紹介します。
幾何学的な図記号と自然の画像テキストとの間に大きな違いがあることを考慮して、図表エンコーダーと記号デコーダーを開発するための単峰性の事前トレーニングを導入し、幾何学的な画像とコーパスの理解を強化します。
さらに、単峰性の幾何学の専門家間のモダリティのギャップを埋める効果的な事前トレーニング パラダイムである幾何学と言語のアライメントを紹介します。
我々は、識別クエリを生成し、不均一に分布した幾何学的信号から有益でない表現を除去するジェネレータアンドサンプラートランスフォーマ(GS-Former)を提案します。
最後に、GeoX は視覚的な指示のチューニングの恩恵を受け、幾何学的な画像と質問を入力として受け取り、検証可能なソリューションを生成できるようになります。
実験の結果、GeoX は、GeoQA、UniGeo、Geometry3K、PGPS9k などの公的に認められたベンチマークにおいて、ジェネラリストと幾何学スペシャリストの両方を上回るパフォーマンスを示しています。

要約(オリジナル)

Despite their proficiency in general tasks, Multi-modal Large Language Models (MLLMs) struggle with automatic Geometry Problem Solving (GPS), which demands understanding diagrams, interpreting symbols, and performing complex reasoning. This limitation arises from their pre-training on natural images and texts, along with the lack of automated verification in the problem-solving process. Besides, current geometric specialists are limited by their task-specific designs, making them less effective for broader geometric problems. To this end, we present GeoX, a multi-modal large model focusing on geometric understanding and reasoning tasks. Given the significant differences between geometric diagram-symbol and natural image-text, we introduce unimodal pre-training to develop a diagram encoder and symbol decoder, enhancing the understanding of geometric images and corpora. Furthermore, we introduce geometry-language alignment, an effective pre-training paradigm that bridges the modality gap between unimodal geometric experts. We propose a Generator-And-Sampler Transformer (GS-Former) to generate discriminative queries and eliminate uninformative representations from unevenly distributed geometric signals. Finally, GeoX benefits from visual instruction tuning, empowering it to take geometric images and questions as input and generate verifiable solutions. Experiments show that GeoX outperforms both generalists and geometric specialists on publicly recognized benchmarks, such as GeoQA, UniGeo, Geometry3K, and PGPS9k.

arxiv情報

著者 Renqiu Xia,Mingsheng Li,Hancheng Ye,Wenjie Wu,Hongbin Zhou,Jiakang Yuan,Tianshuo Peng,Xinyu Cai,Xiangchao Yan,Bin Wang,Conghui He,Botian Shi,Tao Chen,Junchi Yan,Bo Zhang
発行日 2024-12-16 15:20:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク