Chain of Hindsight Aligns Language Models with Feedback

要約

人間の好みから学ぶことは、言語モデルが人間にとって有用であり、人間と社会の価値観と一致するために重要です。
これまでの研究は、人間のフィードバックから学習して指示を理解し、従うことで、目覚ましい成功を収めてきました。
これらは、教師付き微調整と RLHF の 2 つのカテゴリに属します。
教師あり微調整は、人間のラベラーが好む精選されたモデル生成に基づいています。その主な制限は、教師あり微調整が否定的な評価から学習できないことです。
モデルは正のフィードバックでのみトレーニングされるため、データが非効率的になり、一般化が難しくなります。
RLHF は、報酬関数と RL 最適化を学習することですべてのフィードバックから学習できますが、不完全な報酬関数に悩まされ、RL の調整は非常に困難です。
この作業では、教師あり微調整と RLHF の両方の制限に対処する新しい手法を提案します。私たちの方法である後知恵の連鎖は、強化学習を使用せずに言語モデルをすべてのフィードバックに合わせます。
私たちのアイデアは、人間が後知恵の経験からどのように学習するかに動機付けられており、言語モデルの言語理解能力を活用するために、すべてのフィードバックを文に変換してモデルを微調整します。
後知恵フィードバックと組み合わせた一連のモデル生成でモデルを調整し、モデルを微調整して、最も好ましい出力を予測します。
そうすることで、モデルは否定的な属性やエラーを特定して修正することを学習できます。
私たちの方法をGPT-Jに適用すると、要約と対話のタスクで教師あり微調整とRLHFの両方を大幅に上回り、人間の評価ではるかに好まれることがわかります。

要約(オリジナル)

Learning from human preferences is important for language models to be helpful and useful for humans, and to align with human and social values. Prior work have achieved remarkable successes by learning from human feedback to understand and follow instructions. They belong to two categories supervised finetuning and RLHF. Supervised finetuning is based on curated model generations that are preferred by human labelers, a key limitation of them is that supervised finetuning cannot learn from negative ratings; models are only trained on positive feedback, which makes it data inefficient and difficult to generalize. While RLHF can learn from all feedback by learning a reward function and RL optimization, it suffers from imperfect reward function and RL is very hard to tune. In this work, we propose a novel technique that addresses the limitations of both supervised finetuning and RLHF, our method, Chain of Hindsight, aligns language models with all feedback without using reinforcement learning. Our idea is motivated by how humans learn from hindsight experience, and we turn all feedback into a sentence to finetune model in order to leverage the language understanding abilities of language models. We condition the model on a sequence of model generations paired with hindsight feedback, and finetune the model to predict the most preferred output. By doing so, models can learn to identify and correct negative attributes or errors. Applying our method to GPT-J, we observe that it substantially outperforms both supervised finetuning and RLHF on summarization and dialogue tasks and is significantly more preferred in human evaluations.

arxiv情報

著者 Hao Liu,Carmelo Sferrazza,Pieter Abbeel
発行日 2023-02-20 10:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク