When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデル(LLM)を人間の好みに合わせて広く使用されていますが、通常、ユーザー全体で均質な好みを想定し、多様な人間の価値と少数派の視点を見落とします。
パーソナライズされた選好学習は、個々のユーザー向けの個別の好みを調整することによりこれに対処しますが、フィールドにはその有効性を評価するための標準化された方法がありません。
パフォーマンスだけでなく、公平性、意図しない効果、さまざまなレベルの好みの発散にわたって適応性を測定する多面的な評価フレームワークを提示します。
3つの優先データセットにわたって8つのパーソナライズ方法を比較する広範な実験により、ユーザーが強く同意しない場合、メソッド間のパフォーマンスの違いが36%に達する可能性があり、パーソナライズが最大20%の安全性の不整合を導入できることを実証します。
これらの調査結果は、より効果的で包括的な選好学習システムの開発を進めるための全体的な評価アプローチの重要なニーズを強調しています。

要約(オリジナル)

While Reinforcement Learning from Human Feedback (RLHF) is widely used to align Large Language Models (LLMs) with human preferences, it typically assumes homogeneous preferences across users, overlooking diverse human values and minority viewpoints. Although personalized preference learning addresses this by tailoring separate preferences for individual users, the field lacks standardized methods to assess its effectiveness. We present a multi-faceted evaluation framework that measures not only performance but also fairness, unintended effects, and adaptability across varying levels of preference divergence. Through extensive experiments comparing eight personalization methods across three preference datasets, we demonstrate that performance differences between methods could reach 36% when users strongly disagree, and personalization can introduce up to 20% safety misalignment. These findings highlight the critical need for holistic evaluation approaches to advance the development of more effective and inclusive preference learning systems.

arxiv情報

著者 Yijiang River Dong,Tiancheng Hu,Yinhong Liu,Ahmet Üstün,Nigel Collier
発行日 2025-02-26 14:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク