R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models

要約

既存の大規模マルチモーダル モデル (LMM) は、高品質の画像とテキストのペア データが不足しているため、数学的幾何学的推論に苦労しています。
現在の幾何学データ生成アプローチでは、プリセット テンプレートを適用して幾何学データを生成したり、大規模言語モデル (LLM) を使用して質問と回答 (Q&A) を言い換えたりするため、データの精度と多様性が必然的に制限されます。
より高品質のデータを合成するために、2 段階の逆思考連鎖 (R-CoT) ジオメトリ問題生成パイプラインを提案します。
まず、GeoChain を導入して、忠実度の高い幾何学的画像と、幾何学的要素間の関係を強調する対応する説明を生成します。
次に、説明に基づいて段階的に推論し、推論結果から逆に質問を生成する逆 A&Q 手法を設計します。
実験では、提案された方法が複数の LMM ベースラインで大幅かつ一貫した改善をもたらし、2B、7B、および 8B 設定で新しいパフォーマンス記録を達成することが実証されています。
特に、R-CoT-8B は、これまでの最先端のオープンソース数学モデルを MathVista で 16.6%、GeoQA で 9.2% 上回るパフォーマンスを示し、クローズドソース モデル GPT-4o も平均 13% 上回っています。
両方のデータセットにわたって。
コードは https://github.com/dle666/R-CoT で入手できます。

要約(オリジナル)

Existing Large Multimodal Models (LMMs) struggle with mathematical geometric reasoning due to a lack of high-quality image-text paired data. Current geometric data generation approaches, which apply preset templates to generate geometric data or use Large Language Models (LLMs) to rephrase questions and answers (Q&A), unavoidably limit data accuracy and diversity. To synthesize higher-quality data, we propose a two-stage Reverse Chain-of-Thought (R-CoT) geometry problem generation pipeline. First, we introduce GeoChain to produce high-fidelity geometric images and corresponding descriptions highlighting relations among geometric elements. We then design a Reverse A&Q method that reasons step-by-step based on the descriptions and generates questions in reverse from the reasoning results. Experiments demonstrate that the proposed method brings significant and consistent improvements on multiple LMM baselines, achieving new performance records in the 2B, 7B, and 8B settings. Notably, R-CoT-8B significantly outperforms previous state-of-the-art open-source mathematical models by 16.6% on MathVista and 9.2% on GeoQA, while also surpassing the closed-source model GPT-4o by an average of 13% across both datasets. The code is available at https://github.com/dle666/R-CoT.

arxiv情報

著者 Linger Deng,Yuliang Liu,Bohan Li,Dongliang Luo,Liang Wu,Chengquan Zhang,Pengyuan Lyu,Ziyang Zhang,Gang Zhang,Errui Ding,Yingying Zhu,Xiang Bai
発行日 2024-10-23 13:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク