要約
マルチモーダルの大手言語モデル(MLLM)の顕著な進歩にもかかわらず、ほとんどの最先端のモデルは人間の好みと完全に整合していません。
このギャップは、現在のアライメント研究が主に特定の領域で進歩を達成したため(例えば、幻覚の減少)、人間の好みを持つモデルを整列させることがMLLM能力を体系的に強化できるかどうかのより広範な問題がほとんどないままです。
この目的のために、MM-RLHFを導入します。これは、$ \ mathbf {120k} $微調整された、人間が解決した選好の比較ペアを含むデータセットです。
このデータセットは、既存のリソースに対する実質的な進歩を表し、優れたサイズ、多様性、注釈の粒度、品質を提供します。
このデータセットを活用して、報酬モデルの品質とアライメントアルゴリズムの効率の両方を改善するためのいくつかの重要な革新を提案します。
特に、スコアを割り当てる前にモデル出力の批評を生成する批評ベースの報酬モデルを導入し、従来のスカラー報酬メカニズムと比較して、解釈可能性とより有益なフィードバックを提供します。
さらに、動的報酬スケーリングを提案します。これは、報酬信号に応じて各サンプルの損失重量を調整する方法であり、それにより高品質の比較ペアの使用を最適化します。
私たちのアプローチは、$ \ mathbf {10} $の個別の寸法と$ \ mathbf {27} $ベンチマークで厳密に評価されており、結果がモデルパフォーマンスの大幅かつ一貫した改善を示しています。
具体的には、MM-RLHFを備えた微調整LLAVA-OV-7Bとアライメントアルゴリズムは、$ \ MATHBF {19.5} $%の会話能力の増加と$ \ MATHBF {60} $%の安全性の改善につながります。
優先データセット、報酬モデル、トレーニング、評価コード、および報酬モデリングと安全ベンチマークをオープンソーリングしました。
詳細については、https://mm-rlhf.github.ioのプロジェクトページをご覧ください。
要約(オリジナル)
Despite notable advancements in Multimodal Large Language Models (MLLMs), most state-of-the-art models have not undergone thorough alignment with human preferences. This gap exists because current alignment research has primarily achieved progress in specific areas (e.g., hallucination reduction), while the broader question of whether aligning models with human preferences can systematically enhance MLLM capability remains largely unexplored. To this end, we introduce MM-RLHF, a dataset containing $\mathbf{120k}$ fine-grained, human-annotated preference comparison pairs. This dataset represents a substantial advancement over existing resources, offering superior size, diversity, annotation granularity, and quality. Leveraging this dataset, we propose several key innovations to improve both the quality of reward models and the efficiency of alignment algorithms. Notably, we introduce a Critique-Based Reward Model, which generates critiques of model outputs before assigning scores, offering enhanced interpretability and more informative feedback compared to traditional scalar reward mechanisms. Additionally, we propose Dynamic Reward Scaling, a method that adjusts the loss weight of each sample according to the reward signal, thereby optimizing the use of high-quality comparison pairs. Our approach is rigorously evaluated across $\mathbf{10}$ distinct dimensions and $\mathbf{27}$ benchmarks, with results demonstrating significant and consistent improvements in model performance. Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm leads to a $\mathbf{19.5}$% increase in conversational abilities and a $\mathbf{60}$% improvement in safety. We have open-sourced the preference dataset, reward model, training and evaluation code, as well as reward modeling and safety benchmarks. For more details, please visit our project page: https://mm-rlhf.github.io.
arxiv情報
著者 | Yi-Fan Zhang,Tao Yu,Haochen Tian,Chaoyou Fu,Peiyan Li,Jianshu Zeng,Wulin Xie,Yang Shi,Huanyu Zhang,Junkang Wu,Xue Wang,Yibo Hu,Bin Wen,Fan Yang,Zhang Zhang,Tingting Gao,Di Zhang,Liang Wang,Rong Jin,Tieniu Tan |
発行日 | 2025-02-14 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google