要約
嗜好ベースのフィードバックは、報酬機能の評価が実行不可能な機械学習における多くのアプリケーションにとって重要です。
注目すべき最近の例は、人間のフィードバック(RLHF)からの補強学習や直接選好最適化(DPO)を含む、大規模な言語モデルの優先アライメントで発生します。
優先アライメントの多くのアプリケーションでは、人間のフィードバックを取得するコストは相当な場合があります。
この作業では、多くの場合、人間のフィードバックを得るためのコンテキストを選択して、最も効率的に優れたポリシーを特定し、設定をアクティブなコンテキストの決闘の盗賊問題として形式化できるという事実を利用します。
データを効率的に選択し、多項式最悪のケース後悔があるという理論的証明を提供するためのアクティブな探索アルゴリズムを提案します。
大規模な言語モデルの好みのアラインメントにおいて、実践のための設定と方法論を拡張します。
オンラインとオフラインアプローチの2つの拡張機能を提供します。
私たちの方法は、いくつかの言語モデルでの人間の好みのサンプルが限られているベースラインと、文献に貢献する2つの新しいデータセットを含む4つの実際のデータセットを上回ります。
要約(オリジナル)
Preference-based feedback is important for many applications in machine learning where evaluation of a reward function is not feasible. Notable recent examples arise in preference alignment for large language models, including in reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). For many applications of preference alignment, the cost of acquiring human feedback can be substantial. In this work, we take advantage of the fact that one can often choose contexts at which to obtain human feedback to most efficiently identify a good policy, and formalize the setting as an active contextual dueling bandit problem. We propose an active exploration algorithm to efficiently select the data and provide theoretical proof that it has a polynomial worst-case regret bound. We extend the setting and methodology for practical use in preference alignment of large language models. We provide two extensions, an online and an offline approach. Our method outperforms the baselines with limited samples of human preferences on several language models and four real-world datasets including two new datasets that we contribute to the literature.
arxiv情報
著者 | Viraj Mehta,Syrine Belakaria,Vikramjeet Das,Ojash Neopane,Yijia Dai,Ilija Bogunovic,Barbara Engelhardt,Stefano Ermon,Jeff Schneider,Willie Neiswanger |
発行日 | 2025-03-20 14:23:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google