Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes

要約

大規模言語モデル (LLM) が日常のアプリケーションにますます組み込まれるようになるにつれ、個々のユーザーの多様な好みに LLM を確実に適合させることが重要な課題となっています。
現在導入されているアプローチは通常、均一なユーザー目標を想定しており、単一の目標の微調整に依存しています。
しかし、人間の好みは本質的に不均一であり、さまざまな観察できない要因の影響を受け、好みデータに矛盾するシグナルが生じます。
この多様性に対処する既存のソリューションでは、多くの場合、特定の目的にラベル付けされた高価なデータセットが必要であり、複数の報酬モデルまたは LLM ポリシーのトレーニングが必要ですが、これは計算コストが高く、非現実的です。
この研究では、ユーザーの根本的な好みをユーザーの選択の小さなサンプルから推測する、数ショットで操縦可能なアライメントのための新しいフレームワークを紹介します。
これを達成するために、我々はブラッドリー・テリー・ルースモデルを拡張して、観測されていない変動要因を持つ異種の嗜好を処理し、報酬モデリングとLLM微調整のためのその実用的な実装を提案します。
関数パラメータ空間条件付けという私たちが提案したアプローチのおかげで、私たちのフレームワークでトレーニングされた LLM は、推論時に個人の好みに適応し、一連の動作モードにわたって出力を生成できます。
私たちは手法の有効性を経験的に検証し、データ効率の高い方法で人間の多様な好みを捉えて調整する能力を実証します。
私たちのコードは、https://github.com/kasia-kobalczyk/few-shot-steerable-alignment から入手できます。

要約(オリジナル)

As large language models (LLMs) become increasingly embedded in everyday applications, ensuring their alignment with the diverse preferences of individual users has become a critical challenge. Currently deployed approaches typically assume homogeneous user objectives and rely on single-objective fine-tuning. However, human preferences are inherently heterogeneous, influenced by various unobservable factors, leading to conflicting signals in preference data. Existing solutions addressing this diversity often require costly datasets labelled for specific objectives and involve training multiple reward models or LLM policies, which is computationally expensive and impractical. In this work, we present a novel framework for few-shot steerable alignment, where users’ underlying preferences are inferred from a small sample of their choices. To achieve this, we extend the Bradley-Terry-Luce model to handle heterogeneous preferences with unobserved variability factors and propose its practical implementation for reward modelling and LLM fine-tuning. Thanks to our proposed approach of functional parameter-space conditioning, LLMs trained with our framework can be adapted to individual preferences at inference time, generating outputs over a continuum of behavioural modes. We empirically validate the effectiveness of methods, demonstrating their ability to capture and align with diverse human preferences in a data-efficient manner. Our code is made available at: https://github.com/kasia-kobalczyk/few-shot-steerable-alignment.

arxiv情報

著者 Katarzyna Kobalczyk,Claudio Fanconi,Hao Sun,Mihaela van der Schaar
発行日 2024-12-18 16:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク