要約
人間のフィードバックから学習することは、大規模言語モデル (LLM) の出力を人間の期待に合わせるための優れた手法です。
ヒューマン フィードバックからの強化学習 (RLHF) は、応答ペアのランキングの形式である人間の好みの信号を利用して、この調整を実行します。
ただし、LLM 出力に対する人間の好みは、自然言語を含むより豊富な形式で提供される可能性があり、特定の応答の長所と短所に関する詳細なフィードバックが提供される可能性があります。
この研究では、自然言語による人間のフィードバックをモデル化する際のデータ効率を調査します。
具体的には、回答の批評や修正の形での自然言語による比較的少量 (1000 レコード以下) の人間のフィードバックに基づいて、オープンソース LLM (Falcon-40B-Instruct など) を微調整します。
このモデルは、ChatGPT、BARD、Vicuna などの最も強力な LLM の一部からの応答の批評と改訂を通じて、応答の品質を向上させることができることを示します。
たとえば、ChatGPT 応答の改訂を 1 回繰り返すことで、改訂された応答の勝率は元の応答よりも 56.6% になり、改訂を 5 回繰り返し適用すると、この勝率はさらに 65.9% に向上します。
要約(オリジナル)
Learning from human feedback is a prominent technique to align the output of large language models (LLMs) with human expectations. Reinforcement learning from human feedback (RLHF) leverages human preference signals that are in the form of ranking of response pairs to perform this alignment. However, human preference on LLM outputs can come in much richer forms including natural language, which may provide detailed feedback on strengths and weaknesses of a given response. In this work we investigate data efficiency of modeling human feedback that is in natural language. Specifically, we fine-tune an open-source LLM, e.g., Falcon-40B-Instruct, on a relatively small amount (1000 records or even less) of human feedback in natural language in the form of critiques and revisions of responses. We show that this model is able to improve the quality of responses from even some of the strongest LLMs such as ChatGPT, BARD, and Vicuna, through critique and revision of those responses. For instance, through one iteration of revision of ChatGPT responses, the revised responses have 56.6% win rate over the original ones, and this win rate can be further improved to 65.9% after applying the revision for five iterations.
arxiv情報
著者 | Di Jin,Shikib Mehri,Devamanyu Hazarika,Aishwarya Padmakumar,Sungjin Lee,Yang Liu,Mahdi Namazifar |
発行日 | 2023-11-24 15:20:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google