Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF

要約

実際には、人間のフィードバックからの好みの学習は、コンテキストが隠された不完全なデータに依存しています。
隠れたコンテキストとは、受信したフィードバックに影響を与えるが、嗜好モデルのトレーニングに使用されるデータには表されていないデータを指します。
これにより、さまざまな好みを持つヒューマン アノテーターの存在、一見非合理的な行動を引き起こす認知プロセス、さまざまな基準に従ってラベル付けされたデータの組み合わせなど、データ収集の一般的な問題が把握されます。
私たちは、ヒューマン フィードバックからの強化学習 (RLHF) を含む嗜好学習の標準的なアプリケーションが、ボルダ カウントと呼ばれるよく知られた投票ルールに従って隠れたコンテキスト上で暗黙的に集約されることを証明します。
これにより、期待される効用を介して暗黙的に集計する他の方法とは大きく異なる、直観に反する結果が生成される可能性があることを示します。
さらに、私たちの分析は、多様な価値観を持つユーザーからの嗜好学習が社会的選択機能を暗黙のうちに実装する方法を形式化しました。
この結果が示唆する重要な点は、アノテーターには、学習されたモデルに影響を与えるために自分の設定を誤って報告するインセンティブがあり、RLHF の展開に脆弱性が生じるということです。
これらの問題を軽減するためのステップとして、分布優先学習 (DPL) と呼ばれるメソッドのクラスを導入します。
DPL メソッドは、隠れたコンテキストをより適切に説明するために、各選択肢の可能なスコア値の分布を推定します。
実験結果は、LLM チャットボットの RLHF に DPL を適用すると、データ内の隠れたコンテキストを特定し、その後のジェイルブレイクの脆弱性を大幅に軽減することを示しています。
私たちのコードとデータは https://github.com/cassidylaidlaw/hidden-context で入手できます。

要約(オリジナル)

In practice, preference learning from human feedback depends on incomplete data with hidden context. Hidden context refers to data that affects the feedback received, but which is not represented in the data used to train a preference model. This captures common issues of data collection, such as having human annotators with varied preferences, cognitive processes that result in seemingly irrational behavior, and combining data labeled according to different criteria. We prove that standard applications of preference learning, including reinforcement learning from human feedback (RLHF), implicitly aggregate over hidden contexts according to a well-known voting rule called Borda count. We show this can produce counter-intuitive results that are very different from other methods which implicitly aggregate via expected utility. Furthermore, our analysis formalizes the way that preference learning from users with diverse values tacitly implements a social choice function. A key implication of this result is that annotators have an incentive to misreport their preferences in order to influence the learned model, leading to vulnerabilities in the deployment of RLHF. As a step towards mitigating these problems, we introduce a class of methods called distributional preference learning (DPL). DPL methods estimate a distribution of possible score values for each alternative in order to better account for hidden context. Experimental results indicate that applying DPL to RLHF for LLM chatbots identifies hidden context in the data and significantly reduces subsequent jailbreak vulnerability. Our code and data are available at https://github.com/cassidylaidlaw/hidden-context

arxiv情報

著者 Anand Siththaranjan,Cassidy Laidlaw,Dylan Hadfield-Menell
発行日 2023-12-13 18:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク