要約
大規模な言語モデル(LLM)を人間の好みに合わせることは、最新の生成モデルを構築する上で重要な役割を果たし、人間のフィードバック(RLHF)からの強化学習によって達成できます。
優れたパフォーマンスにもかかわらず、現在のRLHFアプローチでは、多くの場合、収集するのに費用がかかる大量の人間で標識された選好データが必要です。
この論文では、アクティブラーニングの成功に触発されたこのペーパーでは、クエリ効率の高いRLHFメソッドを提案することにより、この問題に対処します。
まず、アラインメントの問題を文脈上の決闘の盗賊問題として形式化し、$ \ tilde {o}(d^2/\ delta)$ instance依存性後悔と$ \ tilde {o}(d^2/\ delta)を備えたアクティブなクエリベースの近位ポリシー最適化(appo)アルゴリズムを設計します。
$ \ tilde {o}(d^2/\ delta^2)$クエリの複雑さ。ここで、$ d $は機能空間の寸法であり、$ \ delta $はすべてのコンテキストにわたるサブオプティマリティギャップです。
次に、直接選好最適化(DPO)に基づいてアルゴリズムの実用的なバージョンであるADPOを提案し、微調整LLMSに適用します。
私たちの実験では、ADPOは、人間の好みのために約半分のクエリしか作成しないが、最先端のDPOメソッドのパフォーマンスと一致することを示しています。
要約(オリジナル)
Aligning large language models (LLM) with human preference plays a key role in building modern generative models and can be achieved by reinforcement learning from human feedback (RLHF). Despite their superior performance, current RLHF approaches often require a large amount of human-labelled preference data, which is expensive to collect. In this paper, inspired by the success of active learning, we address this problem by proposing query-efficient RLHF methods. We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization (APPO) algorithm with an $\tilde{O}(d^2/\Delta)$ instance-dependent regret bound and an $\tilde{O}(d^2/\Delta^2)$ query complexity, where $d$ is the dimension of feature space and $\Delta$ is the sub-optimality gap over all the contexts. We then propose ADPO, a practical version of our algorithm based on direct preference optimization (DPO) and apply it to fine-tuning LLMs. Our experiments show that ADPO, while only making about half of queries for human preference, matches the performance of the state-of-the-art DPO method.
arxiv情報
著者 | Kaixuan Ji,Jiafan He,Quanquan Gu |
発行日 | 2025-02-11 18:18:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google