DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning

要約

推論により、複雑なタスクでの大規模な言語モデル(LLMS)のパフォーマンスが大幅に向上しました。
現在の推論研究の中心であるプロセス報酬モデル(PRMS)は、中間推論の手順のきめの細かい評価を提供し、推論プロセスを導きます。
ただし、PRMSをマルチモーダル大手言語モデル(MLLM)に拡張すると、課題が導入されます。
マルチモーダルの推論は、テキストのみのシナリオと比較してより広い範囲のタスクをカバーするため、結果として生じるトレーニングからテストセットへの分布シフトはより深刻であり、より大きな一般化の難易度をもたらします。
したがって、信頼できるマルチモーダルPRMをトレーニングするには、十分なカバレッジを確保するために、大規模で多様なデータセットが必要です。
ただし、現在のマルチモーダル推論データセットは、PRMのパフォーマンスを低下させ、効果的なデータ選択戦略の必要性を強調する著しい品質の不均衡に悩まされています。
問題に対処するために、Biレベルの最適化を採用するマルチモーダルPRMSのドメイン式に照らされたトレーニングフレームワークであるDreamPRMを紹介します。
低レベルの最適化では、DreamPRMはドメイン重みの複数のデータセットで微調整を実行し、PRMが高品質の推論信号に優先順位を付け、データセット品質の不均衡の影響を緩和できるようにします。
上位レベルの最適化では、PRMは別のメタラーニングデータセットで評価されます。
このフィードバックは、集約損失関数を介してドメインの重みを更新し、それにより訓練されたPRMの一般化能力を改善します。
数学的および一般的な推論の両方をカバーする複数のマルチモーダル推論ベンチマークに関する広範な実験は、DreamPRMを使用したテスト時間スケーリングが一貫して最先端のMLLMのパフォーマンスを改善することを示しています。
さらなる比較により、DreamPRMのドメインを登録する戦略が他のデータ選択方法を上回り、既存のテスト時間スケーリングアプローチよりも高い精度の向上をもたらすことが明らかになります。

要約(オリジナル)

Reasoning has substantially improved the performance of large language models (LLMs) on complicated tasks. Central to the current reasoning studies, Process Reward Models (PRMs) offer a fine-grained evaluation of intermediate reasoning steps and guide the reasoning process. However, extending PRMs to multimodal large language models (MLLMs) introduces challenges. Since multimodal reasoning covers a wider range of tasks compared to text-only scenarios, the resulting distribution shift from the training to testing sets is more severe, leading to greater generalization difficulty. Training a reliable multimodal PRM, therefore, demands large and diverse datasets to ensure sufficient coverage. However, current multimodal reasoning datasets suffer from a marked quality imbalance, which degrades PRM performance and highlights the need for an effective data selection strategy. To address the issues, we introduce DreamPRM, a domain-reweighted training framework for multimodal PRMs which employs bi-level optimization. In the lower-level optimization, DreamPRM performs fine-tuning on multiple datasets with domain weights, allowing the PRM to prioritize high-quality reasoning signals and alleviating the impact of dataset quality imbalance. In the upper-level optimization, the PRM is evaluated on a separate meta-learning dataset; this feedback updates the domain weights through an aggregation loss function, thereby improving the generalization capability of trained PRM. Extensive experiments on multiple multimodal reasoning benchmarks covering both mathematical and general reasoning show that test-time scaling with DreamPRM consistently improves the performance of state-of-the-art MLLMs. Further comparisons reveal that DreamPRM’s domain-reweighting strategy surpasses other data selection methods and yields higher accuracy gains than existing test-time scaling approaches.

arxiv情報

著者 Qi Cao,Ruiyi Wang,Ruiyi Zhang,Sai Ashish Somayajula,Pengtao Xie
発行日 2025-05-26 17:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク