Optimal and Adaptive Non-Stationary Dueling Bandits Under a Generalized Borda Criterion

要約

バンディットとの決闘では、学習者はアーム間で好みのフィードバックを受け取り、アームの後悔は勝者のアームに対する準最適性の観点から定義されます。
時間の経過とともに好みが変化する、決闘盗賊のより挑戦的で実践的な動機に基づく非定常型は、最近のいくつかの研究で焦点となっている(Saha and Gupta、2022; Buening and Saha、2023; Suk and Agarwal、2023)。
目標は、変化量を事前に知ることなくアルゴリズムを設計することです。
ここでの既知の結果の大部分は、他のアームよりも優先されるアームが常に存在するコンドルセの勝者の設定を研究しています。
しかし、そのような勝者は存在しない可能性があり、対照的に、この問題のボルダ版 (常に明確に定義されている) はほとんど注目されていません。
この研究では、最初の最適かつ適応的なボルダの動的リグレット上限を確立します。これは、バンディットとの決闘におけるコンドルセ対ボルダのリグレット目標間の重大な非定常性の学習可能性の基本的な違いを強調します。
驚くべきことに、非定常ボルダの決闘盗賊に対する私たちの技術も、コンドルセ勝者の設定内で改善されたレートをもたらし、非定常性のより厳密な概念が適応的に学習可能な新しい優先モデルを明らかにします。
これは、ボルダの問題とコンドルセの問題を統合する新しい一般化されたボルダ スコア フレームワークを通じて達成され、コンドルセの後悔をボルダのようなタスクに減らすことができます。
このような一般化はこれまで知られていなかったため、独立した興味深いものとなる可能性があります。

要約(オリジナル)

In dueling bandits, the learner receives preference feedback between arms, and the regret of an arm is defined in terms of its suboptimality to a winner arm. The more challenging and practically motivated non-stationary variant of dueling bandits, where preferences change over time, has been the focus of several recent works (Saha and Gupta, 2022; Buening and Saha, 2023; Suk and Agarwal, 2023). The goal is to design algorithms without foreknowledge of the amount of change. The bulk of known results here studies the Condorcet winner setting, where an arm preferred over any other exists at all times. Yet, such a winner may not exist and, to contrast, the Borda version of this problem (which is always well-defined) has received little attention. In this work, we establish the first optimal and adaptive Borda dynamic regret upper bound, which highlights fundamental differences in the learnability of severe non-stationarity between Condorcet vs. Borda regret objectives in dueling bandits. Surprisingly, our techniques for non-stationary Borda dueling bandits also yield improved rates within the Condorcet winner setting, and reveal new preference models where tighter notions of non-stationarity are adaptively learnable. This is accomplished through a novel generalized Borda score framework which unites the Borda and Condorcet problems, thus allowing reduction of Condorcet regret to a Borda-like task. Such a generalization was not previously known and is likely to be of independent interest.

arxiv情報

著者 Joe Suk,Arpit Agarwal
発行日 2024-03-19 17:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク