WikiPersonas: What Can We Learn From Personalized Alignment to Famous People?

要約

優先アライメントは、fineTuningモデルの標準的なパイプラインとなり、\ emphing {generic}人間の好みに従います。
作業の大部分は、モデルを最適化して、平均して{平均して} {平均して}を好む応答を生成し、多様でしばしば頻繁に{矛盾する}人間の好みの空間を簡素化しようとしています。
研究は、個々のユーザー設定にモデルを適応させるパーソナライズされたアライメントにますます焦点を当てていますが、微妙な個人レベルの好みに焦点を当てたパーソナライズされた選好データセットが不足しています。
これに対処するために、Wikipersonaを紹介します。
データセットは、解釈可能なプロセスを通じてこれらのペルソナと一致するようにモデルに挑戦します。ペルソナの背景と整合性に加えて、検証可能なテキストの説明を生成します。
さまざまなパーソナライズアプローチを体系的に評価し、好みと微調整を伴う少数の促しを同時に確保できないことがわかります。

要約(オリジナル)

Preference alignment has become a standard pipeline in finetuning models to follow \emph{generic} human preferences. Majority of work seeks to optimize model to produce responses that would be preferable \emph{on average}, simplifying the diverse and often \emph{contradicting} space of human preferences. While research has increasingly focused on personalized alignment: adapting models to individual user preferences, there is a lack of personalized preference dataset which focus on nuanced individual-level preferences. To address this, we introduce WikiPersona: the first fine-grained personalization using well-documented, famous individuals. Our dataset challenges models to align with these personas through an interpretable process: generating verifiable textual descriptions of a persona’s background and preferences in addition to alignment. We systematically evaluate different personalization approaches and find that as few-shot prompting with preferences and fine-tuning fail to simultaneously ensure effectiveness and efficiency, using \textit{inferred personal preferences} as prefixes enables effective personalization, especially in topics where preferences clash while leading to more equitable generalization across unseen personas.

arxiv情報

著者 Zilu Tang,Afra Feyza Akyürek,Ekin Akyürek,Derry Wijaya
発行日 2025-05-19 15:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク