Aligning LLMs with Individual Preferences via Interaction

要約

大規模言語モデル(LLM)がますます高度な能力を発揮するにつれ、その振る舞いを人間の価値観や嗜好に合わせることが、LLMを広く採用する上で極めて重要になってきている。これまでの研究では、「親切」「無害」「誠実」といった原則に沿った一般的なアライメントに焦点が当てられてきたが、個人や多様な嗜好を考慮する必要性はほとんど見落とされており、カスタマイズされた人間体験を損なう可能性がある。このギャップに対処するために、我々は”整列するために対話する”ことができるLLMを訓練する。基本的に、LLMのメタスキルは、マルチターンの会話を通じて、現在のユーザーの暗黙のパーソナライズされた好みを推測し、次の行動と応答をこれらの推測された好みに動的に整合させることである。私たちのアプローチでは、最初にシード例を作成することで、3,310の異なるユーザーペルソナの多様なプールを確立します。異なるユーザーペルソナに導かれ、マルチLLMコラボレーションを活用し、ツリー構造の3K以上のマルチターン会話を含むマルチターン嗜好データセットを開発する。最後に、このデータセットを用いてLLMを強化するために、教師ありの微調整と強化学習を適用する。評価のために、会話中にカスタマイズされたアライメント性能を測定するために、慎重に選択された100の例とよく設計された測定基準からなるALOE (ALign With CustOmized PrEferences)ベンチマークを確立する。実験結果は、対話を通じて動的でパーソナライズされたアライメントを可能にする我々の手法の有効性を実証している。

要約(オリジナル)

As large language models (LLMs) demonstrate increasingly advanced capabilities, aligning their behaviors with human values and preferences becomes crucial for their wide adoption. While previous research focuses on general alignment to principles such as helpfulness, harmlessness, and honesty, the need to account for individual and diverse preferences has been largely overlooked, potentially undermining customized human experiences. To address this gap, we train LLMs that can ”interact to align”, essentially cultivating the meta-skill of LLMs to implicitly infer the unspoken personalized preferences of the current user through multi-turn conversations, and then dynamically align their following behaviors and responses to these inferred preferences. Our approach involves establishing a diverse pool of 3,310 distinct user personas by initially creating seed examples, which are then expanded through iterative self-generation and filtering. Guided by distinct user personas, we leverage multi-LLM collaboration to develop a multi-turn preference dataset containing 3K+ multi-turn conversations in tree structures. Finally, we apply supervised fine-tuning and reinforcement learning to enhance LLMs using this dataset. For evaluation, we establish the ALOE (ALign With CustOmized PrEferences) benchmark, consisting of 100 carefully selected examples and well-designed metrics to measure the customized alignment performance during conversations. Experimental results demonstrate the effectiveness of our method in enabling dynamic, personalized alignment via interaction.

arxiv情報

著者 Shujin Wu,May Fung,Cheng Qian,Jeonghwan Kim,Dilek Hakkani-Tur,Heng Ji
発行日 2024-10-04 17:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク