Training Language Models with Language Feedback at Scale

要約

事前トレーニングされた言語モデルは、有害なテキストや事実に反する要約など、人間の好みに合わない出力を生成することがよくあります。
最近の研究では、人間のフィードバックの単純な形式から学習することで上記の問題に取り組みます。つまり、モデルによって生成された出力のペア間の比較です。
ただし、比較フィードバックは、人間の好みに関する限られた情報しか伝えません。
このホワイト ペーパーでは、言語フィードバック (ILF) からの模倣学習を紹介します。これは、より有益な言語フィードバックを利用する新しいアプローチです。
ILF は、反復的に適用される 3 つのステップで構成されます。最初に、入力に対する言語モデルの調整、最初の LM 出力、改良を生成するためのフィードバックです。
次に、最も多くのフィードバックを取り入れた改良を選択します。
第三に、言語モデルを微調整して、入力が与えられたときに選択された改良の可能性を最大化します。
ILF は、人間のフィードバックからの強化学習と同様に、ベイジアン推論と見なすことができることを理論的に示しています。
慎重に制御されたおもちゃのタスクと現実的な要約タスクに対する ILF の有効性を評価します。
私たちの実験は、大規模な言語モデルにフィードバックが正確に組み込まれていること、および ILF を使用した微調整がデータセットのサイズに合わせて適切にスケーリングされ、人間の要約に対する微調整よりも優れていることを示しています。
言語と比較フィードバックの両方から学習することは、それぞれから学習するよりも優れており、人間レベルの要約パフォーマンスを達成します。

要約(オリジナル)

Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF’s effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.

arxiv情報

著者 Jérémy Scheurer,Jon Ander Campos,Tomasz Korbak,Jun Shern Chan,Angelica Chen,Kyunghyun Cho,Ethan Perez
発行日 2023-03-28 17:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク