要約
DPO などの Direct Alignment from Preference (DAP) 手法は、別個の報酬モデルを必要としない、ヒューマン フィードバックからの強化学習 (RLHF) の効率的な代替手段として最近登場しました。
ただし、DAP メソッドで使用される嗜好データセットは通常、トレーニング前に収集され、決して更新されないため、フィードバックは純粋にオフラインになります。
さらに、これらのデータセット内の応答は、調整されている言語モデルとは別の言語モデルからサンプリングされることが多く、モデルはトレーニングを通じて進化するため、調整フェーズは必然的にポリシーから外れます。
この研究では、オンライン フィードバックが鍵であり、DAP 手法を改善すると仮定しています。
私たちの手法であるオンライン AI フィードバック (OAIF) では、LLM をアノテーターとして使用します。トレーニングの反復ごとに、現在のモデルから 2 つの応答をサンプリングし、LLM アノテーターにどちらが好ましいかを選択するように促し、オンライン フィードバックを提供します。
そのシンプルさにも関わらず、いくつかのタスクにおける人間による評価を通じて、OAIF がオフライン DAP および RLHF 手法の両方よりも優れていることを実証しました。
さらに、OAIF で利用されるフィードバックは、LLM アノテーターへの指示プロンプトを介して簡単に制御できることを示します。
要約(オリジナル)
Direct alignment from preferences (DAP) methods, such as DPO, have recently emerged as efficient alternatives to reinforcement learning from human feedback (RLHF), that do not require a separate reward model. However, the preference datasets used in DAP methods are usually collected ahead of training and never updated, thus the feedback is purely offline. Moreover, responses in these datasets are often sampled from a language model distinct from the one being aligned, and since the model evolves over training, the alignment phase is inevitably off-policy. In this study, we posit that online feedback is key and improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as annotator: on each training iteration, we sample two responses from the current model and prompt the LLM annotator to choose which one is preferred, thus providing online feedback. Despite its simplicity, we demonstrate via human evaluation in several tasks that OAIF outperforms both offline DAP and RLHF methods. We further show that the feedback leveraged in OAIF is easily controllable, via instruction prompts to the LLM annotator.
arxiv情報
著者 | Shangmin Guo,Biao Zhang,Tianlin Liu,Tianqi Liu,Misha Khalman,Felipe Llinares,Alexandre Rame,Thomas Mesnard,Yao Zhao,Bilal Piot,Johan Ferret,Mathieu Blondel |
発行日 | 2024-02-07 12:31:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google