DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

要約

報酬モデル(RM)の性能は、アライメント微調整時に大規模言語モデル(LLM)の有効性を向上させる重要な要素である。1)様々なカテゴリのデータを用いて同じRMを訓練すると、マルチタスク妨害によりRMの汎化性能が低下する可能性がある。これら2つの課題に取り組むため、我々はRM分野に初めてMixture-of-Experts (MoE)のアイデアを導入した。我々はDouble-Layer MoE RM (DMoERM)を提案する。外層MoEはスパースモデルである。入力をタスクカテゴリーに分類した後、対応する内層のタスク固有モデルにルーティングする。内層MoEは密なモデルである。特定のタスクを複数の能力次元に分解し、それぞれについてLoRAエキスパートを個別に微調整する。それらの出力はMLPによって合成され、最終的な報酬を計算する。コストを最小化するため、能力選好ラベルを取得するために公開LLM APIを呼び出す。手動でラベル付けされたデータセットでの検証により、我々のモデルが人間の嗜好と優れた整合性を達成し、先進的な生成的アプローチを凌駕することが確認された。一方、BoNサンプリングとRL実験を通して、我々のモデルがRMの最先端のアンサンブル手法を凌駕し、過剰最適化問題を緩和することを実証する。我々のコードとデータセットはhttps://github.com/quanshr/DMoERM-v1。

要約(オリジナル)

The performance of the reward model (RM) is a critical factor in improving the effectiveness of the large language model (LLM) during alignment fine-tuning. There remain two challenges in RM training: 1) training the same RM using various categories of data may cause its generalization performance to suffer from multi-task disturbance, and 2) the human annotation consistency rate is generally only $60\%$ to $75\%$, causing training data to contain a lot of noise. To tackle these two challenges, we introduced the idea of Mixture-of-Experts (MoE) into the field of RM for the first time. We propose the Double-Layer MoE RM (DMoERM). The outer layer MoE is a sparse model. After classifying an input into task categories, we route it to the corresponding inner layer task-specific model. The inner layer MoE is a dense model. We decompose the specific task into multiple capability dimensions and individually fine-tune a LoRA expert on each one. Their outputs are then synthesized by an MLP to compute the final rewards. To minimize costs, we call a public LLM API to obtain the capability preference labels. The validation on manually labeled datasets confirms that our model attains superior consistency with human preference and outstrips advanced generative approaches. Meanwhile, through BoN sampling and RL experiments, we demonstrate that our model outperforms state-of-the-art ensemble methods of RM and mitigates the overoptimization problem. Our code and dataset are available at: https://github.com/quanshr/DMoERM-v1.

arxiv情報

著者 Shanghaoran Quan
発行日 2024-03-02 12:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク