Reinforcement Learning from Human Feedback with Active Queries

要約

大規模言語モデル (LLM) を人間の好みに合わせることは、最新の生成モデルの構築において重要な役割を果たしており、人間のフィードバックからの強化学習 (RLHF) によって実現できます。
優れたパフォーマンスにもかかわらず、現在の RLHF アプローチは人間がラベル付けした大量の嗜好データを必要とすることが多く、収集に費用がかかります。
この論文では、アクティブ ラーニングの成功に触発されて、クエリ効率の高い RLHF メソッドを提案することでこの問題に対処します。
まず、アライメント問題をコンテキスト決闘バンディット問題として形式化し、$\tilde{O}(d^2/\Delta)$ リグロングバウンドと $\ を使用したアクティブクエリベースの近接ポリシー最適化 (APPO) アルゴリズムを設計します。
チルダ{O}(d^2/\Delta^2)$ クエリの複雑さ。$d$ は特徴空間の次元、$\Delta$ はすべてのコンテキストにわたる次善のギャップです。
次に、直接優先最適化 (DPO) に基づくアルゴリズムの実用的なバージョンである ADPO を提案し、それを LLM の微調整に適用します。
私たちの実験によると、ADPO は人間の好みに合わせてクエリの約半分しか作成しませんが、最先端の DPO メソッドのパフォーマンスに匹敵することがわかりました。

要約(オリジナル)

Aligning large language models (LLM) with human preference plays a key role in building modern generative models and can be achieved by reinforcement learning from human feedback (RLHF). Despite their superior performance, current RLHF approaches often require a large amount of human-labelled preference data, which is expensive to collect. In this paper, inspired by the success of active learning, we address this problem by proposing query-efficient RLHF methods. We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization (APPO) algorithm with an $\tilde{O}(d^2/\Delta)$ regret bound and an $\tilde{O}(d^2/\Delta^2)$ query complexity, where $d$ is the dimension of feature space and $\Delta$ is the sub-optimality gap over all the contexts. We then propose ADPO, a practical version of our algorithm based on direct preference optimization (DPO) and apply it to fine-tuning LLMs. Our experiments show that ADPO, while only making about half of queries for human preference, matches the performance of the state-of-the-art DPO method.

arxiv情報

著者 Kaixuan Ji,Jiafan He,Quanquan Gu
発行日 2024-02-14 18:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.OC, stat.ML パーマリンク