MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

要約

マルチモーダルの大手言語モデル(MLLM)は視覚言語の理解において印象的な進歩を達成していますが、彼らは依然として複雑なマルチステップの推論に苦労しており、しばしば論理的に矛盾するまたは部分的に正しい解決策を生み出しています。
重要な制限は、中間の推論ステップをめぐる細かい監督がないことにあります。
これに対処するために、完全に自動化されたスケーラブルなフレームワーク内で訓練されたプロセス報酬モデルであるMM-PRMを提案します。
最初に、多様な数学的推論データで訓練された強力なマルチモーダルモデルであるMM-Policyを構築します。
次に、シードデータとして機能する検証可能な回答を使用して、10,000のマルチモーダル数学問題のキュレーションデータセットであるMM-K12を構築します。
モンテカルロツリー検索(MCTS)ベースのパイプラインを活用すると、人間の標識なしで700Kを超えるステップレベルの注釈が生成されます。
結果のPRMは、ベストアントNの推論セットアップで候補の推論パスを獲得するために使用され、ドメイン内(MM-K12テストセット)とドメイン外(Olympiadbench、Mathvistaなど)の両方で大幅な改善を達成します。
さらなる分析により、ソフトラベルの有効性、学習率が小さく、PRMパフォーマンスの最適化におけるパスの多様性が確認されます。
MM-PRMは、プロセス監督がマルチモーダル推論システムの論理的堅牢性を高めるための強力なツールであることを示しています。
https://github.com/modalminds/mm-prmですべてのコードとデータをリリースします。

要約(オリジナル)

While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.

arxiv情報

著者 Lingxiao Du,Fanqing Meng,Zongkai Liu,Zhixiang Zhou,Ping Luo,Qiaosheng Zhang,Wenqi Shao
発行日 2025-05-19 17:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク