Languages are Rewards: Chain of Hindsight Finetuning using Human Feedback

要約

人間の好みから学ぶことは、言語モデルが人間にとって有用であり、人間と社会の価値観と一致するために重要です。
既存の作業は、人間のラベラーが好む精選されたモデル生成に基づいて、事前トレーニング済みモデルの教師あり微調整に焦点を当てています。
このような作業は、指示 (InstructGPT、ChatGPT など) を理解し、従うという点で目覚ましい成功を収めています。
ただし、これまでのところ、教師あり微調整の主な制限は、否定的な評価から学習できないことです。
モデルは肯定的な評価のデータでのみトレーニングされるため、データの効率が低下します。
人間のフィードバック データの収集には時間と費用がかかるため、モデルがすべてのフィードバックから学習することが不可欠です。これは、人間がさまざまなフィードバックから学習する優れた能力と同様です。
この作業では、多様な人間のフィードバックから言語モデルを学習させるための Hindsight Finetuning と呼ばれる新しい手法を提案します。
実際、私たちのアイデアは、人間が後知恵の経験からどのように学ぶかによって動機付けられています。
後知恵フィードバックと組み合わせた一連のモデル生成でモデルを調整し、モデルを微調整して、最も好ましい出力を予測します。
そうすることで、モデルは否定的な属性やエラーを特定して修正することを学習できます。
この方法をGPT-Jに適用すると、同じ量の人間のフィードバックを使用して、要約と対話タスクの結果が大幅に改善されることがわかります。

要約(オリジナル)

Learning from human preferences is important for language models to be helpful and useful for humans, and to align with human and social values. Existing works focus on supervised finetuning of pretrained models, based on curated model generations that are preferred by human labelers. Such works have achieved remarkable successes in understanding and following instructions (e.g., InstructGPT, ChatGPT, etc). However, to date, a key limitation of supervised finetuning is that it cannot learn from negative ratings; models are only trained on positive-rated data, which makes it data inefficient. Because collecting human feedback data is both time consuming and expensive, it is vital for the model to learn from all feedback, akin to the remarkable ability of humans to learn from diverse feedback. In this work, we propose a novel technique called Hindsight Finetuning for making language models learn from diverse human feedback. In fact, our idea is motivated by how humans learn from hindsight experience. We condition the model on a sequence of model generations paired with hindsight feedback, and finetune the model to predict the most preferred output. By doing so, models can learn to identify and correct negative attributes or errors. Applying the method to GPT-J, we observe that it significantly improves results on summarization and dialogue tasks using the same amount of human feedback.

arxiv情報

著者 Hao Liu,Carmelo Sferrazza,Pieter Abbeel
発行日 2023-02-13 21:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク