Aligning Large Language Models by On-Policy Self-Judgment

要約

大規模な言語モデルを人間の好みに合わせるための既存のアプローチは、ポリシーに基づいた学習のために別の報酬モデル (RM) を必要とするというトレードオフに直面しています。
この論文では、(1) オンポリシー学習を実行し、2) オンポリシー学習のサンプルを評価するための追加の RM を必要としないため、パラメーター効率が高い新しいアライメント フレームワークである SELF-JUDGE を紹介します。
この目的を達成するために、単一のモデルをポリシーとジャッジの両方として機能させるためにトレーニングするジャッジ拡張教師あり微調整 (JSFT) を提案します。
具体的には、応答ペアからより良い応答を選択するペアごとの判断タスクを、指示に従うタスクの特殊なケースとして見ます。
結果として得られるモデルは、それ自体から初期化された現在のポリシーからオンザフライ応答の優先順位を判断できます。
実験結果は、SELF-JUDGE の有効性が示されており、嗜好ベンチマークのベースラインを上回っています。
また、追加の評価器を必要とせずに、サンプリングの拒否だけでパフォーマンスをさらに向上できることも示します。

要約(オリジナル)

Existing approaches for aligning large language models with human preferences face a trade-off that requires a separate reward model (RM) for on-policy learning. In this paper, we present a novel alignment framework, SELF-JUDGE that (1) does on-policy learning and 2) is parameter efficient, as it does not require an additional RM for evaluating the samples for on-policy learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a single model to act as both a policy and a judge. Specifically, we view the pairwise judgment task, choosing the better response from a response pair, as a special case of the instruction-following task. The resulting model can judge preferences of on-the-fly responses from current policy initialized from itself. Experimental results show the efficacy of SELF-JUDGE, outperforming baselines in preference benchmarks. We also show that the rejecting sampling by itself can improve performance further without an additional evaluator.

arxiv情報

著者 Sangkyu Lee,Sungdong Kim,Ashkan Yousefpour,Minjoon Seo,Kang Min Yoo,Youngjae Yu
発行日 2024-06-25 13:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク