要約
マルチモーダル報酬モデル(MM-RMS)は、特にLLMがマルチモーダルデータとますます相互作用するようになるため、大規模な言語モデル(LLM)を人間の好みに合わせるために重要です。
ただし、既存のデータセットでトレーニングされたMM-RMSは、単峰性のスプリアスな相関に依存するため、主にトレーニング分布内のテキストのみのショートカットに依存しているため、分散分布データに一般化するのに苦労することがよくあります。
これに対処するために、トレーニングサンプルを動的に再測定し、より良いマルチモーダル理解に分布をシフトし、イモダルのスプリアスな相関への依存を減らすことにより、この問題を軽減するショートカットを意識したMM-RM学習アルゴリズムを導入します。
私たちの実験は、一般化、下流のタスクのパフォーマンス、およびスケーラビリティの大幅な改善を示し、マルチモーダル報酬モデリングのためのより堅牢なフレームワークを確立します。
要約(オリジナル)
Multimodal Reward Models (MM-RMs) are crucial for aligning Large Language Models (LLMs) with human preferences, particularly as LLMs increasingly interact with multimodal data. However, we find that MM-RMs trained on existing datasets often struggle to generalize to out-of-distribution data due to their reliance on unimodal spurious correlations, primarily text-only shortcuts within the training distribution, which prevents them from leveraging true multimodal reward functions. To address this, we introduce a Shortcut-aware MM-RM learning algorithm that mitigates this issue by dynamically reweighting training samples, shifting the distribution toward better multimodal understanding, and reducing dependence on unimodal spurious correlations. Our experiments demonstrate significant improvements in generalization, downstream task performance, and scalability, establishing a more robust framework for multimodal reward modeling.
arxiv情報
著者 | Zichao Li,Xueru Wen,Jie Lou,Yuqiu Ji,Yaojie Lu,Xianpei Han,Debing Zhang,Le Sun |
発行日 | 2025-05-12 08:19:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google