Capturing Individual Human Preferences with Reward Features

要約

人間のフィードバックからの強化学習は通常、人々を区別しない報酬モデルを使用して好みをモデル化します。
私たちは、大規模な言語モデルのトレーニングのように、意見の相違の可能性が高いコンテキストでは、これが良いデザインの選択である可能性は低いと主張します。
人またはグループに報酬モデルを専門とする方法を提案します。
私たちのアプローチは、個々の好みが一連の一般的な報酬機能の線形組み合わせとしてキャプチャできるという観察に基づいています。
そのような機能を学習する方法を示し、その後、それらの好みがトレーニングデータに反映されていなくても、それらを特定の個人に迅速に適応させるためにそれらを使用します。
提案されたアーキテクチャと非適応報酬モデルを比較した大規模な言語モデルでの実験と、コンテキスト内パーソナライズを行うモデルを含む適応性のあるカウンターパートも提示します。
トレーニングデータにどれだけの意見の相違があるかに応じて、モデルはベースラインを大幅に上回るか、パフォーマンスをよりシンプルなアーキテクチャとより安定したトレーニングと一致させます。

要約(オリジナル)

Reinforcement learning from human feedback usually models preferences using a reward model that does not distinguish between people. We argue that this is unlikely to be a good design choice in contexts with high potential for disagreement, like in the training of large language models. We propose a method to specialise a reward model to a person or group of people. Our approach builds on the observation that individual preferences can be captured as a linear combination of a set of general reward features. We show how to learn such features and subsequently use them to quickly adapt the reward model to a specific individual, even if their preferences are not reflected in the training data. We present experiments with large language models comparing the proposed architecture with a non-adaptive reward model and also adaptive counterparts, including models that do in-context personalisation. Depending on how much disagreement there is in the training data, our model either significantly outperforms the baselines or matches their performance with a simpler architecture and more stable training.

arxiv情報

著者 André Barreto,Vincent Dumoulin,Yiran Mao,Nicolas Perez-Nieves,Bobak Shahriari,Yann Dauphin,Doina Precup,Hugo Larochelle
発行日 2025-03-21 17:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク