WorldPM: Scaling Human Preference Modeling

要約

モデルとデータセットのサイズを備えたパワー法則としてのテスト損失スケールを示す言語モデリングの法則のスケーリングによって動機付けられているため、優先モデリングに同様の法則が存在することがわかります。
世界の好みが人間の好みの統一された表現を具体化するこのスケーリングの可能性を強調するために、世界の好みモデリング$(worldpm)を提案します。
この論文では、多様なユーザーコミュニティをカバーするパブリックフォーラムから優先データを収集し、1.5Bから72Bのパラメーターの範囲のモデル全体で15mスケールのデータを使用して広範なトレーニングを実施しています。
さまざまな評価メトリック全体で異なるパターンを観察します。(1)敵対的なメトリック(欺ceptive的な特徴を識別する能力)は、トレーニングデータとベースモデルサイズの増加と一貫してスケールアップします。
(2)客観的なメトリック(明確に定義された答えを伴う客観的な知識)は、より大きな言語モデルで緊急行動を示し、WorldPMのスケーラビリティの可能性を強調します。
(3)主観的な指標(限られた数の人間またはAIからの主観的な好み)は、スケーリングの傾向を示していません。
さらなる実験では、優先微調整の基礎としてのWorldPMの有効性を検証します。
20のサブタスクを備えた7つのベンチマークでの評価を通じて、WorldPMは、さまざまなサイズ(7K、100Kおよび800Kサンプル)の人間の好みデータセット間の一般化パフォーマンスを大幅に改善し、多くの重要なサブタスクで5%を超えるパフォーマンスの向上があります。
WorldPMを内部のRLHFパイプラインに統合すると、社内評価セットとパブリック評価セットの両方で大幅な改善が見られ、社内評価では4%〜8%の顕著な利益が見られます。

要約(オリジナル)

Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM’s scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.

arxiv情報

著者 Binghai Wang,Runji Lin,Keming Lu,Le Yu,Zhenru Zhang,Fei Huang,Chujie Zheng,Kai Dang,Yang Fan,Xingzhang Ren,An Yang,Binyuan Hui,Dayiheng Liu,Tao Gui,Qi Zhang,Xuanjing Huang,Yu-Gang Jiang,Bowen Yu,Jingren Zhou,Junyang Lin
発行日 2025-05-15 17:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク