PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences

要約

Web スケールの生データで事前トレーニングされた大規模な基礎モデルは、人間の好みに合わせて広範囲に調整する追加の手順がなければ、すぐに展開できません。
このような調整は通常、人間から大量のペアごとの比較 (「出力 A と B のどちらが好きですか?」) を収集し、ブラッドリー・テリー・ルース (BTL) モデルを代用として報酬モデルまたはポリシーを学習することによって行われます。
人間の根底にある暗黙の好み。
これらの方法は一般に、すべての人間が共有する普遍的な好みを仮定するという問題があり、複数の意見や好みに適応する柔軟性に欠けています。
この研究では、既存の事前学習戦略を補完する人間の好みをモデル化するフレームワークである PAL を提案します。これは、複数性を根本から組み込んだものです。
私たちは、好みの比較を使用して位置合わせを確認するためのレンズとして理想的な点モデルを使用することを提案します。
私たちの新しい再定式化と混合モデリングの使用と合わせて、私たちのフレームワークは集団の複数の好みを捕捉すると同時に、異なる好みにまたがる共通の好みの潜在空間を学習し、それをまだ見たことのない新しいユーザーに少数のショットで一般化することができます。
私たちのアプローチにより、大規模な基盤モデルの最後から 2 番目の層表現と単純な MLP 層を使用して、既存の大規模な最先端の報酬モデルと同等の報酬関数を学習できるようになり、それによって報酬モデリングの効率が大幅に向上します。
PAL は、1) 概要データセットを使用した言語モデルの強力なベースラインと比較して、競争力のある報酬モデルの精度を達成していることを示します。
2) Pick-a-Pic データセットを使用した画像生成モデル。
3) Anthropic ペルソナを使用して生成された新しい半合成異種データセット。
最後に、私たちの実験は、不均一性を洗い流す厳格なルーブリックを使用して作成された現在の嗜好データセットの欠点も強調しており、より微妙なデータ収集アプローチが必要です。

要約(オリジナル)

Large foundation models pretrained on raw web-scale data are not readily deployable without additional step of extensive alignment to human preferences. Such alignment is typically done by collecting large amounts of pairwise comparisons from humans (‘Do you prefer output A or B?’) and learning a reward model or a policy with the Bradley-Terry-Luce (BTL) model as a proxy for a human’s underlying implicit preferences. These methods generally suffer from assuming a universal preference shared by all humans, which lacks the flexibility of adapting to plurality of opinions and preferences. In this work, we propose PAL, a framework to model human preference complementary to existing pretraining strategies, which incorporates plurality from the ground up. We propose using the ideal point model as a lens to view alignment using preference comparisons. Together with our novel reformulation and using mixture modeling, our framework captures the plurality of population preferences while simultaneously learning a common preference latent space across different preferences, which can few-shot generalize to new, unseen users. Our approach enables us to use the penultimate-layer representation of large foundation models and simple MLP layers to learn reward functions that are on-par with the existing large state-of-the-art reward models, thereby enhancing efficiency of reward modeling significantly. We show that PAL achieves competitive reward model accuracy compared to strong baselines on 1) Language models with Summary dataset ; 2) Image Generative models with Pick-a-Pic dataset ; 3) A new semisynthetic heterogeneous dataset generated using Anthropic Personas. Finally, our experiments also highlight the shortcoming of current preference datasets that are created using rigid rubrics which wash away heterogeneity, and call for more nuanced data collection approaches.

arxiv情報

著者 Daiwei Chen,Yi Chen,Aniket Rege,Ramya Korlakai Vinayak
発行日 2024-06-12 17:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク