要約
Large Vision Language Model (LVLM) は視覚的な理解において有望なパフォーマンスを示しますが、誤った出力を生成することがあります。
強化学習またはテスト時間スケーリングを備えた報酬モデル (RM) は、生成品質を向上させる可能性をもたらしますが、重大なギャップが残っています。公的に入手可能な LVLM 用のマルチモーダル RM は希少であり、独自のモデルの実装の詳細は不明瞭であることがよくあります。
私たちは、LVLM を人間の好みに合わせたシンプルで効果的なマルチモーダル報酬モデルである InternLM-XComposer2.5-Reward (IXC-2.5-Reward) でこのギャップを埋めます。
IXC-2.5-Reward の堅牢性と多用途性を確保するために、指示に従い、一般的な理解、テキストの多いドキュメント、
数学的推論とビデオの理解。
IXC-2.5-Reward は、最新のマルチモーダル報酬モデル ベンチマークで優れた結果を達成し、テキストのみの報酬モデル ベンチマークで競争力のあるパフォーマンスを示します。
さらに、IXC-2.5-Reward の 3 つの主要なアプリケーションを示します。 (1) RL トレーニングに監視信号を提供します。
IXC-2.5-Reward と Proximal Policy Optimization (PPO) を統合すると、IXC-2.5-Chat が生成されます。これにより、指示に従い、マルチモーダルなオープンエンドの対話が一貫して改善されました。
(2) テスト時間のスケーリングのために候補応答から最適な応答を選択します。
(3) 既存の画像およびビデオ命令調整トレーニング データから外れ値またはノイズの多いサンプルをフィルタリングします。
再現性を確保し、さらなる研究を促進するために、すべてのモデルの重みとトレーニング レシピを https://github.com/InternLM/InternLM-XComposer でオープンソース化しました。
要約(オリジナル)
Despite the promising performance of Large Vision Language Models (LVLMs) in visual understanding, they occasionally generate incorrect outputs. While reward models (RMs) with reinforcement learning or test-time scaling offer the potential for improving generation quality, a critical gap remains: publicly available multi-modal RMs for LVLMs are scarce, and the implementation details of proprietary models are often unclear. We bridge this gap with InternLM-XComposer2.5-Reward (IXC-2.5-Reward), a simple yet effective multi-modal reward model that aligns LVLMs with human preferences. To ensure the robustness and versatility of IXC-2.5-Reward, we set up a high-quality multi-modal preference corpus spanning text, image, and video inputs across diverse domains, such as instruction following, general understanding, text-rich documents, mathematical reasoning, and video understanding. IXC-2.5-Reward achieves excellent results on the latest multi-modal reward model benchmark and shows competitive performance on text-only reward model benchmarks. We further demonstrate three key applications of IXC-2.5-Reward: (1) Providing a supervisory signal for RL training. We integrate IXC-2.5-Reward with Proximal Policy Optimization (PPO) yields IXC-2.5-Chat, which shows consistent improvements in instruction following and multi-modal open-ended dialogue; (2) Selecting the best response from candidate responses for test-time scaling; and (3) Filtering outlier or noisy samples from existing image and video instruction tuning training data. To ensure reproducibility and facilitate further research, we have open-sourced all model weights and training recipes at https://github.com/InternLM/InternLM-XComposer
arxiv情報
著者 | Yuhang Zang,Xiaoyi Dong,Pan Zhang,Yuhang Cao,Ziyu Liu,Shengyuan Ding,Shenxi Wu,Yubo Ma,Haodong Duan,Wenwei Zhang,Kai Chen,Dahua Lin,Jiaqi Wang |
発行日 | 2025-01-21 18:47:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google