The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values

要約

大規模言語モデル (LLM) の動作を制御するために、人間のフィードバックがますます使用されています。
しかし、特に非常に主観的な人間の好みや価値観について、効率的、効果的かつ公平な方法でフィードバックを収集して組み込む方法は不明です。
この論文では、主に ACL および arXiv リポジトリからの 95 件の論文を参考にして、人間のフィードバックから学習するための既存のアプローチを調査します。まず、人間のフィードバックを言語モデルに統合するための、LLM 以前の過去の傾向を要約します。
次に、現在の技術と実践の概要、およびフィードバックを使用する動機について説明します。
価値観と好みを定義するための概念的な枠組み。
フィードバックがどのように、誰から収集されるのか。
最後に、5 つの未解決の概念的および実践的な課題を提起することで、LLM におけるフィードバック学習のより良い未来を奨励します。

要約(オリジナル)

Human feedback is increasingly used to steer the behaviours of Large Language Models (LLMs). However, it is unclear how to collect and incorporate feedback in a way that is efficient, effective and unbiased, especially for highly subjective human preferences and values. In this paper, we survey existing approaches for learning from human feedback, drawing on 95 papers primarily from the ACL and arXiv repositories.First, we summarise the past, pre-LLM trends for integrating human feedback into language models. Second, we give an overview of present techniques and practices, as well as the motivations for using feedback; conceptual frameworks for defining values and preferences; and how feedback is collected and from whom. Finally, we encourage a better future of feedback learning in LLMs by raising five unresolved conceptual and practical challenges.

arxiv情報

著者 Hannah Rose Kirk,Andrew M. Bean,Bertie Vidgen,Paul Röttger,Scott A. Hale
発行日 2023-10-11 16:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク