要約
Chain-of-Thought(COT)は、大規模な言語モデル(LLM)で数学的推論を大幅に強化していますが、マルチモーダルドメインに拡張することは依然として困難なままです。
既存の作品は、画像入力の同様のテキスト推論を採用するか、視覚信号を数学的なCOTにインターリーしようとします。
ただし、数学の問題解決のための3つの重要な制限に直面しています。粗粒化ボックス型の画像領域への依存、数学コンテンツに対するビジョンエンコーダーの限られた認識、視覚的修飾のための外部機能への依存です。
この論文では、Mint-Cotを提案し、考え方の視覚的推論のために数学的なインターリーブトークンを導入します。
Mint-Cotは、関連する視覚トークンをインターリーブトークンを介してテキストの推論ステップに互いに互換性を整えます。これは、数学の数値内の形状の視覚領域を動的に選択します。
この機能を強化するために、厳密なデータ生成パイプラインを伴う、各推論ステップをトークンレベルの視覚領域と並べる54kの数学的問題を含むMint-Cotデータセットを構築します。
さらに、3段階のミントコットトレーニング戦略を提示し、テキストのみのCOTSFT、インターリーブCOT SFT、およびミントCOT-7Bモデルを導出するインターリーブCOT RLを徐々に組み合わせます。
広範な実験は、Mint-COT-7BがMathvistaで +28.78%、MMSTARでそれぞれ28.78%、MINT-COT-7Bがベースラインモデルを上回る数学ドメインにおける効果的な視覚インターリーブ推論のための方法の有効性を示しています。
私たちのコードとデータは、https://github.com/xinyan-cxy/mint-cotで入手できます
要約(オリジナル)
Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT
arxiv情報
| 著者 | Xinyan Chen,Renrui Zhang,Dongzhi Jiang,Aojun Zhou,Shilin Yan,Weifeng Lin,Hongsheng Li |
| 発行日 | 2025-06-05 17:59:02+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google