PERSONA: A Reproducible Testbed for Pluralistic Alignment

要約

言語モデル (LM) の急速な進歩には、多様なユーザーの価値観との確実な連携が必要です。
しかし、現在の嗜好最適化アプローチは、多くの場合、複数のユーザーの意見を捉えることができず、代わりに多数派の観点を強化し、少数派の観点を疎外しています。
LM の多元的アライメントを評価および改善するために設計された再現可能なテストベッドである PERSONA を紹介します。
米国の国勢調査データからさまざまなユーザー プロファイルを手順に従って生成し、その結果、さまざまな人口統計や特異な属性を持つ 1,586 人の合成ペルソナが生成されます。
次に、合成ペルソナから取得した 3,868 のプロンプトと 317,200 のフィードバックのペアを含む大規模な評価データセットを生成します。
このデータセットを活用して、多様なユーザーをロールプレイする際の LM 能力を体系的に評価し、人間の審査員を通じて検証し、多元的調整アプローチのためのベンチマークである PERSONA ベンチと、新規および将来のベンチマークを作成するための広範なデータセットの両方を確立します。
完全なデータセットとベンチマークは、https://www.synthlabs.ai/research/persona から入手できます。

要約(オリジナル)

The rapid advancement of language models (LMs) necessitates robust alignment with diverse user values. However, current preference optimization approaches often fail to capture the plurality of user opinions, instead reinforcing majority viewpoints and marginalizing minority perspectives. We introduce PERSONA, a reproducible test bed designed to evaluate and improve pluralistic alignment of LMs. We procedurally generate diverse user profiles from US census data, resulting in 1,586 synthetic personas with varied demographic and idiosyncratic attributes. We then generate a large-scale evaluation dataset containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic personas. Leveraging this dataset, we systematically evaluate LM capabilities in role-playing diverse users, verified through human judges, and the establishment of both a benchmark, PERSONA Bench, for pluralistic alignment approaches as well as an extensive dataset to create new and future benchmarks. The full dataset and benchmarks are available here: https://www.synthlabs.ai/research/persona.

arxiv情報

著者 Louis Castricato,Nathan Lile,Rafael Rafailov,Jan-Philipp Fränken,Chelsea Finn
発行日 2024-07-24 16:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク