PersonalLLM: Tailoring LLMs to Individual Preferences

要約

LLM が複雑なタスクを実行できるようになるにつれて、ユーザーの微妙で特異な好みに合わせてカスタマイズされたインタラクションの可能性が高まっています。
特定のユーザーに最大のメリットを提供するように LLM を適応させることに焦点を当てた、公開ベンチマーク PersonalLLM を紹介します。
均一な好みを暗黙のうちに仮定する既存の調整ベンチマークから離れ、ユーザーが異種の潜在的な好みを示すことが期待される多くの質の高い回答と組み合わせた自由形式のプロンプトを厳選します。
人間と比較して均質な好みをもたらす、高レベルの属性 (ユーザーの人種や応答の長さなど) に基づいてペルソナを促す LLM の代わりに、事前に設定された一連の好みから多様な好みを持つ大規模なユーザー ベースをシミュレートできる方法を開発します。
訓練された報酬モデル。
当社のデータセットと生成されたパーソナリティは、他の (類似の) ユーザーからの履歴データを活用することで、継続的なデータの希薄性 (特定のユーザーからの関連するフィードバックがほとんどない) に対処するパーソナライゼーション アルゴリズムを開発するための革新的なテストベッドを提供します。
私たちは、PersonalLLM の有用性を説明し、将来の方法論開発の必要性を強調するために、基本的なコンテキスト内学習とメタ学習のベースラインを調査します。
私たちのデータセットは https://huggingface.co/datasets/namkoong-lab/PersonalLLM で入手できます。

要約(オリジナル)

As LLMs become capable of complex tasks, there is growing potential for personalized interactions tailored to the subtle and idiosyncratic preferences of the user. We present a public benchmark, PersonalLLM, focusing on adapting LLMs to provide maximal benefits for a particular user. Departing from existing alignment benchmarks that implicitly assume uniform preferences, we curate open-ended prompts paired with many high-quality answers over which users would be expected to display heterogeneous latent preferences. Instead of persona-prompting LLMs based on high-level attributes (e.g., user’s race or response length), which yields homogeneous preferences relative to humans, we develop a method that can simulate a large user base with diverse preferences from a set of pre-trained reward models. Our dataset and generated personalities offer an innovative testbed for developing personalization algorithms that grapple with continual data sparsity–few relevant feedback from the particular user–by leveraging historical data from other (similar) users. We explore basic in-context learning and meta-learning baselines to illustrate the utility of PersonalLLM and highlight the need for future methodological development. Our dataset is available at https://huggingface.co/datasets/namkoong-lab/PersonalLLM

arxiv情報

著者 Thomas P. Zollo,Andrew Wei Tung Siah,Naimeng Ye,Ang Li,Hongseok Namkoong
発行日 2024-09-30 13:55:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.6 パーマリンク