RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、AI システムを人間の価値観に合わせるための効果的な手法であり、最近では大規模言語モデルの微調整で目覚ましい成功を収めています。
既存の RLHF パラダイムのほとんどは、人間の好みは比較的均一であり、単一の報酬モデルによってエンコードできるという基礎的な仮定を立てています。
この論文では、人間の好みの本質的な不均一性と、フィードバックを提供する際の潜在的な戦略的行動に起因する問題への対処に焦点を当てます。
具体的には、原理的な方法で異質な人間のフィードバックに対処するための 2 つのフレームワーク、つまりパーソナライゼーション ベースのフレームワークと集約ベースのフレームワークを提案します。
前者については、偏り(嗜好の異質性による)と分散(パーソナライゼーションによる各モデルの学習に使用するデータの量が少ないため)をトレードオフする複数の報酬モデルを学習するため、それぞれ表現学習とクラスタリングに基づく 2 つのアプローチを提案します。

次に、両方のアプローチに対するサンプルの複雑さの保証を確立します。
後者については、人間からの多様で真実の好みを慎重に集約することにより、現在の RLHF パラダイムですでに展開されている単一モデルのフレームワークに準拠することを目指しています。
我々は、それぞれ報酬と選好の集計に基づいた 2 つのアプローチを提案します。前者は、功利主義と Leximin アプローチの両方を利用して、サンプルの複雑性を保証しながら個々の報酬モデルを集計します。
後者は人間のフィードバックを確率論的な意見の形で直接集約します。
確率論的意見フィードバック モデルの下では、真実ではないフィードバックによって集約された好みを偏らせて操作する可能性のある戦略的な人間のラベラーに対処するアプローチも開発します。
メカニズム設計のアイデアに基づいた私たちのアプローチは、社会福祉機能を最大化する誘導集計ルールを使用して、真実の嗜好レポートを保証します。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has been an effective technique for aligning AI systems with human values, with remarkable successes in fine-tuning large-language models recently. Most existing RLHF paradigms make the underlying assumption that human preferences are relatively homogeneous, and can be encoded by a single reward model. In this paper, we focus on addressing the issues due to the inherent heterogeneity in human preferences, as well as their potential strategic behavior in providing feedback. Specifically, we propose two frameworks to address heterogeneous human feedback in principled ways: personalization-based one and aggregation-based one. For the former, we propose two approaches based on representation learning and clustering, respectively, for learning multiple reward models that trades off the bias (due to preference heterogeneity) and variance (due to the use of fewer data for learning each model by personalization). We then establish sample complexity guarantees for both approaches. For the latter, we aim to adhere to the single-model framework, as already deployed in the current RLHF paradigm, by carefully aggregating diverse and truthful preferences from humans. We propose two approaches based on reward and preference aggregation, respectively: the former utilizes both utilitarianism and Leximin approaches to aggregate individual reward models, with sample complexity guarantees; the latter directly aggregates the human feedback in the form of probabilistic opinions. Under the probabilistic-opinion-feedback model, we also develop an approach to handle strategic human labelers who may bias and manipulate the aggregated preferences with untruthful feedback. Based on the ideas in mechanism design, our approach ensures truthful preference reporting, with the induced aggregation rule maximizing social welfare functions.

arxiv情報

著者 Chanwoo Park,Mingyang Liu,Dingwen Kong,Kaiqing Zhang,Asuman Ozdaglar
発行日 2024-05-27 14:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク