Pareto-Optimal Learning from Preferences with Hidden Context

要約

AIモデルが人間の価値と一致するようにすることは、安全性と機能に不可欠です。
人間のフィードバック(RLHF)からの強化学習は、人間の好みを活用して、この整合性を達成します。
ただし、好みが多様な集団から供給される場合、報酬のポイントの推定値は、最適ではないパフォーマンスをもたらすか、特定のグループにとって不公平になる可能性があります。
パレート最適な選好学習(POPL)を提案します。これは、潜在的なトレードオフを持つ目標として矛盾したグループの好みをフレーミングすることにより、優先データセットのパレート最適なポリシーを目指して、矛盾したグループの好みをフレーミングすることにより、多元的な整合性を可能にします。
POPLは、多様なソリューションとパレート最適なソリューションを選択する反復プロセスであるレキシカーゼ選択を利用しています。
私たちの理論的および経験的評価は、POPLが報酬機能とポリシーの学習セットのベースライン方法を上回り、グループ番号やメンバーシップラベルにアクセスすることなく異なるグループに効果的にケータリングすることを示しています。
Stateless Preference Learning Settion、Minigrid RLドメイン、Metaworld Roboticsベンチマーク、および大規模な言語モデル(LLM)の微調整でPOPLのパフォーマンスを検証します。
POPLは、グループ公平性の特定の概念を最適化する技術の基盤としても機能し、安全で公平なAIモデルの調整を確保できることを示しています。

要約(オリジナル)

Ensuring AI models align with human values is essential for their safety and functionality. Reinforcement learning from human feedback (RLHF) leverages human preferences to achieve this alignment. However, when preferences are sourced from diverse populations, point estimates of reward can result in suboptimal performance or be unfair to specific groups. We propose Pareto Optimal Preference Learning (POPL), which enables pluralistic alignment by framing discrepant group preferences as objectives with potential trade-offs, aiming for policies that are Pareto-optimal on the preference dataset. POPL utilizes lexicase selection, an iterative process that selects diverse and Pareto-optimal solutions. Our theoretical and empirical evaluations demonstrate that POPL surpasses baseline methods in learning sets of reward functions and policies, effectively catering to distinct groups without access to group numbers or membership labels. We verify the performance of POPL on a stateless preference learning setting, a Minigrid RL domain, Metaworld robotics benchmarks, as well as large language model (LLM) fine-tuning. We illustrate that POPL can also serve as a foundation for techniques optimizing specific notions of group fairness, ensuring safe and equitable AI model alignment.

arxiv情報

著者 Ryan Bahlous-Boldi,Li Ding,Lee Spector,Scott Niekum
発行日 2025-02-07 17:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク