Training Language Models with Language Feedback at Scale

要約

タイトル:「大規模な言語フィードバックで言語モデルのトレーニング」

要約:
– 学習済みの言語モデルは、有害なテキストや事実に反する要約など、人間の好みに合わない出力を生成することがある。
– 最近の研究では、モデル生成の出力の比較による簡単な形式の人間のフィードバックから学習することで、上記の問題に取り組んでいる。
– しかし、比較フィードバックは人間の好みについて限られた情報しか伝えない。
– 本論文では、より情報量の多い言語フィードバックを利用する新しい手法である「言語フィードバックからの模倣学習(ILF)」を紹介する。
– ILFは、3つの段階から構成される。
– 1つ目は、入力、初期出力、フィードバックに基づいて言語モデルに条件付けを行い、修正を生成すること。
– 2つ目は、最もフィードバックを取り入れた修正を選択すること。
– 3つ目は、入力に対して選択された修正を与えた場合に、その修正が出力される可能性を最大化するように言語モデルを調整すること。
– 理論的には、ILFはベイズ推論と似た人間のフィードバックからの強化学習である。
– 本論文では、細心の注意を払って制御されたおもちゃのタスクと現実的な要約タスクでILFの効果を評価している。
– 実験結果は、大きな言語モデルがフィードバックを正確に取り込め、ILFでの調整がデータセットのサイズに対してスケーリングし、人間の要約以上の結果を出すことを示している。
– 言語フィードバックと比較フィードバックの両方から学習することは、それぞれから学習するよりも優れた要約性能を達成し、人間に匹敵する結果を出すことができる。

要約(オリジナル)

Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF’s effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.

arxiv情報

著者 Jérémy Scheurer,Jon Ander Campos,Tomasz Korbak,Jun Shern Chan,Angelica Chen,Kyunghyun Cho,Ethan Perez
発行日 2023-04-09 14:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク