要約
大規模な言語モデルを人間の好みに合わせるための既存のアプローチは、ポリシーに基づいた学習のために別の報酬モデル (RM) を必要とするというトレードオフに直面しています。
この論文では、(1) オンポリシー学習を実行し、2) オンポリシー学習のサンプルを評価するための追加の RM を必要としないため、パラメーター効率が高い新しいアライメント フレームワークである SELF-JUDGE を紹介します。
この目的を達成するために、単一のモデルをポリシーとジャッジの両方として機能させるためにトレーニングするジャッジ拡張教師あり微調整 (JSFT) を提案します。
具体的には、応答ペアからより良い応答を選択するペアごとの判断タスクを、指示に従うタスクの特殊なケースとして見ます。
結果として得られるモデルは、それ自体から初期化された現在のポリシーからオンザフライ応答の優先順位を判断できます。
実験結果は、SELF-JUDGE の有効性が示されており、嗜好ベンチマークのベースラインを上回っています。
また、追加の評価器を必要とせずに、サンプリングの拒否だけでパフォーマンスをさらに向上できることも示します。
要約(オリジナル)
Existing approaches for aligning large language models with human preferences face a trade-off that requires a separate reward model (RM) for on-policy learning. In this paper, we present a novel alignment framework, SELF-JUDGE that (1) does on-policy learning and 2) is parameter efficient, as it does not require an additional RM for evaluating the samples for on-policy learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a single model to act as both a policy and a judge. Specifically, we view the pairwise judgment task, choosing the better response from a response pair, as a special case of the instruction-following task. The resulting model can judge preferences of on-the-fly responses from current policy initialized from itself. Experimental results show the efficacy of SELF-JUDGE, outperforming baselines in preference benchmarks. We also show that the rejecting sampling by itself can improve performance further without an additional evaluator.
arxiv情報
著者 | Sangkyu Lee,Sungdong Kim,Ashkan Yousefpour,Minjoon Seo,Kang Min Yoo,Youngjae Yu |
発行日 | 2024-06-25 13:39:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google