要約
教師あり微調整、RLHF、DPO などの直接最適化手法など、言語モデルを調整するためのさまざまなアプローチが提案されています。
DPO はその簡単なトレーニング プロセスと競争力のある結果により急速に人気が高まっていますが、応答を評価するために報酬モデルのような弁別器を使用する実用的な利点がまだ残っているかどうかについては未解決の疑問があります。
私たちは、学習を通じて好みが収集されるオンライン設定のためのアプローチである、弁別器ガイド付き DPO、D2PO を提案します。
ゴールドプリファレンスを収集すると、これらをポリシーのトレーニングに使用するだけでなく、ポリシートレーニング用のさらに多くの合成データにシルバーラベルを付けるための識別反応評価モデルをトレーニングするためにも使用します。
私たちは、現実的なチャット設定を含む一連の多様なタスクにわたってこのアプローチを検討しました。私たちのアプローチは、同じデータ予算の DPO と比較して高品質の出力につながり、好みのデータ要件の点で効率が向上することがわかりました。
さらに、シルバー ラベリングが最も役立つ条件を示します。シルバー ラベリングは、DPO でポリシーをトレーニングする場合に最も効果的で、従来の PPO を上回り、ポリシー モデルとは別の識別子を維持することによるメリットがあります。
要約(オリジナル)
Varied approaches for aligning language models have been proposed, including supervised fine-tuning, RLHF, and direct optimization methods such as DPO. Although DPO has rapidly gained popularity due to its straightforward training process and competitive results, there is an open question of whether there remain practical advantages of using a discriminator, like a reward model, to evaluate responses. We propose D2PO, discriminator-guided DPO, an approach for the online setting where preferences are being collected throughout learning. As we collect gold preferences, we use these not only to train our policy, but to train a discriminative response evaluation model to silver-label even more synthetic data for policy training. We explore this approach across a set of diverse tasks, including a realistic chat setting, we find that our approach leads to higher-quality outputs compared to DPO with the same data budget, and greater efficiency in terms of preference data requirements. Furthermore, we show conditions under which silver labeling is most helpful: it is most effective when training the policy with DPO, outperforming traditional PPO, and benefits from maintaining a separate discriminator from the policy model.
arxiv情報
著者 | Prasann Singhal,Nathan Lambert,Scott Niekum,Tanya Goyal,Greg Durrett |
発行日 | 2024-05-02 17:44:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google