要約
大規模言語モデル (LLM) の好みの調整は、高品質の人間の好みデータに依存していますが、多くの場合、収集には費用と時間がかかります。
既存の方法では、トレーニングされた報酬モデルまたは独自のモデルを好みのアノテーションの判断材料として使用できますが、これらには顕著な欠点があります。トレーニングの報酬モデルは初期の人間のデータに依存したままであり、独自のモデルを使用すると商業利用を禁止するライセンス制限が課せられます。
このペーパーでは、カスタマイズされた密度比 (CDR) を紹介します。これは、好みのデータのアノテーションに既製の LLM を活用する、トレーニング不要で非常に効果的な方法です。
私たちのアプローチでは、より良く整列した LLM とより整列が低い LLM の間の対数密度比を報酬信号として使用します。
私たちは 221 の異なる LLM ペアを調査し、ペアになった LLM 間のパフォーマンスの差の増加が報酬の一般化の向上と相関することを経験的に示しました。
さらに、密度比報酬関数を特定の基準と好みの例で調整すると、ドメイン全体およびターゲット領域内のパフォーマンスが向上することを示します。
ペアの Mistral-7B モデルの密度比を使用した実験では、CDR は RewardBench スコア 82.6 を達成し、同じモデル クラスで最もよく訓練された報酬関数を上回り、安全性 (91.0) および推論 (88.0) において SoTA モデルと競合するパフォーマンスを示しました。
ドメイン。
CDR を使用して、SimPO で Llama-3-8B-Instruct を優先調整するオンポリシー設定データセットに注釈を付けます。
2 つの比較的弱いモデルからの報酬シグナルを使用することで、私たちのアプローチは Llama-3-8B を ArenaHard で 37.4% (+15.1%) の勝率、Length-Controlled AlpacaEval 2.0 で 40.7% (+17.8%) の勝率を達成します。
MT-Bench のスコアは 8.0 でした。
要約(オリジナル)
Preference tuning of large language models (LLMs) relies on high-quality human preference data, which is often expensive and time-consuming to gather. While existing methods can use trained reward models or proprietary model as judges for preference annotation, they have notable drawbacks: training reward models remain dependent on initial human data, and using proprietary model imposes license restrictions that inhibits commercial usage. In this paper, we introduce customized density ratio (CDR), a training-free and highly effective method that leverages off-the-shelf LLMs for preference data annotation. Our approach uses the log-density ratio between a better-aligned LLM and a less aligned LLM as a reward signal. We explores 221 different LLMs pairs and empirically demonstrate that increasing the performance gap between paired LLMs correlates with better reward generalization. Furthermore, we show that tailoring the density ratio reward function with specific criteria and preference exemplars enhances performance across domains and within target areas. In our experiment using density ratio from a pair of Mistral-7B models, CDR achieves a RewardBench score of 82.6, outperforming the best trained reward functions from same model class and demonstrating competitive performance against SoTA models in Safety (91.0) and Reasoning (88.0) domains. We use CDR to annotate an on-policy preference dataset with which we preference tune Llama-3-8B-Instruct with SimPO. Using reward signals from two relatively weak models, our approach pushes Llama-3-8B to achieve a 37.4% (+15.1%) win rate on ArenaHard and a 40.7% (+17.8%) win rate on Length-Controlled AlpacaEval 2.0, along with a score of 8.0 on MT-Bench.
arxiv情報
著者 | Guangxuan Xu,Kai Xu,Shivchander Sudalairaj,Hao Wang,Akash Srivastava |
発行日 | 2024-11-11 17:34:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google