Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

要約

言語モデル(LM)は、しばしば、誤った、有害な、あるいは無関係な出力を生成するなど、望ましくないテキスト生成動作を示す。このような問題を解決するために、最近、人間のフィードバックからの強化学習(RLHF:Reinforcement Learning from Human Feedback)が期待されている(LMの出力に対する人間の好み判断を学習信号に変換する)。しかし、このような全体的なフィードバックでは、長文出力に関する情報は限られており、出力のどの部分がユーザーの好みに影響を与えたか、例えば、どの部分にどのような種類のエラーが含まれているか、などは分からない。本論文では、きめ細かい人間のフィードバック(例えば、どの文が誤りであるか、どの文が無関係であるか)を明示的な学習信号として使用します。(1)密度、セグメント(例:文)が生成されるごとに報酬を提供する、(2)異なるフィードバックタイプ(例:事実誤認、無関係、情報不完全)に関連する複数の報酬モデルを組み込む、の2点できめ細かい報酬関数から訓練と学習を可能にする枠組みであるFine-Grained RLHFを紹介します。我々は、無害化実験と長文質問応答実験を行い、このような報酬機能を用いた学習が、自動評価と人間評価の両方から支持されるパフォーマンスの向上につながることを説明する。さらに、きめ細かな報酬モデルの異なる組み合わせにより、LMの動作をカスタマイズできることを示す。すべてのデータ、収集した人間のフィードバック、コードを https://FineGrainedRLHF.github.io で公開します。

要約(オリジナル)

Language models (LMs) often exhibit undesirable text generation behaviors, including generating false, toxic, or irrelevant outputs. Reinforcement learning from human feedback (RLHF) – where human preference judgments on LM outputs are transformed into a learning signal – has recently shown promise in addressing these issues. However, such holistic feedback conveys limited information on long text outputs; it does not indicate which aspects of the outputs influenced user preference; e.g., which parts contain what type(s) of errors. In this paper, we use fine-grained human feedback (e.g., which sentence is false, which sub-sentence is irrelevant) as an explicit training signal. We introduce Fine-Grained RLHF, a framework that enables training and learning from reward functions that are fine-grained in two respects: (1) density, providing a reward after every segment (e.g., a sentence) is generated; and (2) incorporating multiple reward models associated with different feedback types (e.g., factual incorrectness, irrelevance, and information incompleteness). We conduct experiments on detoxification and long-form question answering to illustrate how learning with such reward functions leads to improved performance, supported by both automatic and human evaluation. Additionally, we show that LM behaviors can be customized using different combinations of fine-grained reward models. We release all data, collected human feedback, and codes at https://FineGrainedRLHF.github.io.

arxiv情報

著者 Zeqiu Wu,Yushi Hu,Weijia Shi,Nouha Dziri,Alane Suhr,Prithviraj Ammanabrolu,Noah A. Smith,Mari Ostendorf,Hannaneh Hajishirzi
発行日 2023-06-02 17:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク