Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning

要約

この作業では、問題の困難の事前情報を明示的にモデル化することで、マルチモーダル推論のための補強学習に基づく微調整の有効性をどのように形成するかを調査します。
私たちの探索は主に次の3つの視点で構成されています。まず、オフラインデータキュレーションを通じて、マルチラウンドサンプリングによりベースモデルを使用して2つのデータセットのU字型難易度分布を分析し、意味のあるグラデーションを提供するのが非常に困難なプロンプトを除外し、その後の2段階トレーニングを実行します。
第二に、私たちは、適応的に再び利点の推定を行うための難易度のプロキシとして、オンラインアドバンテージの差別化、グループごとの経験的精度を実装し、より困難な問題のためにより強力な学習信号を提供します。
最後に、2番目のトレーニング段階でより複雑なサンプルの明示的なプロンプトとして難易度のヒントを導入し、モデルが推論の深さを調整し、反射的検証チェックを実行することを奨励します。
当社の包括的なアプローチは、2k+0.6kの2段階トレーニングデータのみのさまざまなマルチモーダル数学的推論ベンチマークで重要なパフォーマンスを示しています。

要約(オリジナル)

In this work, we investigate how explicitly modeling problem’s difficulty prior information shapes the effectiveness of reinforcement learning based fine-tuning for multimodal reasoning. Our exploration mainly comprises of following three perspective: First, through offline data curation, we analyze the U-shaped difficulty distribution of two given datasets using the base model by multi-round sampling, and then filter out prompts that are either too simple or extremely difficult to provide meaningful gradients and perform subsequent two-stage training. Second, we implement an online advantage differentiation, computing group-wise empirical accuracy as a difficulty proxy to adaptively reweight advantages estimation, providing stronger learning signals for more challenging problems. Finally, we introduce difficulty hints as explicit prompts for more complex samples in the second training stage, encouraging the model to calibrate its reasoning depth and perform reflective validation checks. Our comprehensive approach demonstrates significant performances across various multi-modal mathematical reasoning benchmarks with only 2K+0.6K two-stage training data.

arxiv情報

著者 Mingrui Chen,Haogeng Liu,Hao Liang,Huaibo Huang,Wentao Zhang,Ran He
発行日 2025-05-19 15:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク