Deep Bayesian Active Learning for Preference Modeling in Large Language Models

要約

人間の好みを利用して大規模言語モデル (LLM) の動作を制御することは、近年顕著な成功を収めています。
それにもかかわらず、特に大規模なシステムでは、データの選択とラベル付けが依然としてボトルネックとなっています。
したがって、人間のフィードバックを取得するために最も有益なポイントを選択すると、好みのラベル付けのコストが大幅に削減され、LLM のさらなる開発が可能になる可能性があります。
ベイジアン アクティブ ラーニングは、この課題に対処するための原則に基づいたフレームワークを提供し、さまざまな環境で目覚ましい成功を収めています。
ただし、これを優先モデリングに使用するという以前の試みは、そのような期待に応えられませんでした。
この研究では、素朴な認識論的不確実性推定が冗長サンプルの取得につながることを確認しました。
我々は、選好モデリングのためのベイジアン能動学習器(BAL-PM)を提案することでこれに対処します。これは、選好モデルに従って認識論的不確実性が高い点をターゲットとするだけでなく、獲得されたプロンプト分布のエントロピーを最大化しようとする新しい確率的獲得ポリシーです。
採用された LLM がカバーする特徴空間。
特に、私たちの実験では、BAL-PM が 2 つの人気のある人間の嗜好データセットで必要とする嗜好ラベルが 33% ~ 68% 少なく、以前の確率的ベイジアン取得ポリシーを超えていることが実証されています。

要約(オリジナル)

Leveraging human preferences for steering the behavior of Large Language Models (LLMs) has demonstrated notable success in recent years. Nonetheless, data selection and labeling are still a bottleneck for these systems, particularly at large scale. Hence, selecting the most informative points for acquiring human feedback may considerably reduce the cost of preference labeling and unleash the further development of LLMs. Bayesian Active Learning provides a principled framework for addressing this challenge and has demonstrated remarkable success in diverse settings. However, previous attempts to employ it for Preference Modeling did not meet such expectations. In this work, we identify that naive epistemic uncertainty estimation leads to the acquisition of redundant samples. We address this by proposing the Bayesian Active Learner for Preference Modeling (BAL-PM), a novel stochastic acquisition policy that not only targets points of high epistemic uncertainty according to the preference model but also seeks to maximize the entropy of the acquired prompt distribution in the feature space spanned by the employed LLM. Notably, our experiments demonstrate that BAL-PM requires 33% to 68% fewer preference labels in two popular human preference datasets and exceeds previous stochastic Bayesian acquisition policies.

arxiv情報

著者 Luckeciano C. Melo,Panagiotis Tigas,Alessandro Abate,Yarin Gal
発行日 2024-06-14 13:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク