Bandits with Preference Feedback: A Stackelberg Game Perspective

要約

好みのフィードバックを備えたバンディットは、直接値のクエリではなくペアごとの比較のみが許可されている場合に、未知のターゲット関数を最適化するための強力なツールを提供します。
このモデルは、人間のフィードバックをオンライン推論と最適化に組み込むことを可能にし、大規模な言語モデルを微調整するシステムで採用されています。
この問題は、線形ターゲット関数を使用した単純化された設定や、実際的な関心を制限する有限の小さな領域でよく理解されます。
次のステップとして、無限の領域と非線形 (カーネル化された) 報酬を検討します。
この設定では、アクションのペアを選択することは非常に難しく、ペア内とアルゴリズムの反復に沿った 2 つのレベルで探索と活用のバランスを取る必要があります。
我々は、このトレードオフをゼロサム Stackelberg ゲームとしてエミュレートし、有益で有利な報酬を生み出すアクション ペアを選択する MAXMINLCB を提案します。
MAXMINLCB は、既存のアルゴリズムを常に上回っており、いつでも有効なレート最適リグレス保証を満たしています。
これは、カーネル化されたロジスティック推定量のための新しいプリファレンスベースの信頼シーケンスによるものです。

要約(オリジナル)

Bandits with preference feedback present a powerful tool for optimizing unknown target functions when only pairwise comparisons are allowed instead of direct value queries. This model allows for incorporating human feedback into online inference and optimization and has been employed in systems for fine-tuning large language models. The problem is well understood in simplified settings with linear target functions or over finite small domains that limit practical interest. Taking the next step, we consider infinite domains and nonlinear (kernelized) rewards. In this setting, selecting a pair of actions is quite challenging and requires balancing exploration and exploitation at two levels: within the pair, and along the iterations of the algorithm. We propose MAXMINLCB, which emulates this trade-off as a zero-sum Stackelberg game, and chooses action pairs that are informative and yield favorable rewards. MAXMINLCB consistently outperforms existing algorithms and satisfies an anytime-valid rate-optimal regret guarantee. This is due to our novel preference-based confidence sequences for kernelized logistic estimators.

arxiv情報

著者 Barna Pásztor,Parnian Kassraie,Andreas Krause
発行日 2024-10-30 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, stat.ML パーマリンク