要約
決闘盗賊は、推奨システムやランキングなどの機械学習アプリケーションで一般的な優先フィードバックをモデル化するために広く使用されています。
この論文では、累積的な後悔を最小限に抑えながら、ボルダスコアが最も高いアイテムを特定することを目的とした、決闘盗賊のボルダ後悔最小化問題を研究します。
多くの既存のモデルをカバーする、新しく表現力豊かな一般化された線形決闘盗賊モデルを提案します。
驚くべきことに、次数 $\Omega(d^{2/3} T^{2/3})$ のリグレット下限を証明したため、Borda リグレット最小化問題は難しいことがわかりました。ここで、$d$ は次元です。
$T$ はタイム ホライズンです。
下限を達成するために、ほぼ一致する後悔の上限 $\tilde{O}(d^{2/3} T^{2/3})$ を持つ探索後コミット型アルゴリズムを提案します。
アイテム/アーム $K$ の数が少ない場合、アルゴリズムはより小さな後悔 $\tilde{O}( (d \log K)^{1/3} T^{2/3})$ を適切な方法で達成できます。
ハイパーパラメータの選択。
また、合成データとシミュレートされた実世界環境の両方で実証実験を行い、理論的分析を裏付けています。
要約(オリジナル)
Dueling bandits are widely used to model preferential feedback that is prevalent in machine learning applications such as recommendation systems and ranking. In this paper, we study the Borda regret minimization problem for dueling bandits, which aims to identify the item with the highest Borda score while minimizing the cumulative regret. We propose a new and highly expressive generalized linear dueling bandits model, which covers many existing models. Surprisingly, the Borda regret minimization problem turns out to be difficult, as we prove a regret lower bound of order $\Omega(d^{2/3} T^{2/3})$, where $d$ is the dimension of contextual vectors and $T$ is the time horizon. To attain the lower bound, we propose an explore-then-commit type algorithm, which has a nearly matching regret upper bound $\tilde{O}(d^{2/3} T^{2/3})$. When the number of items/arms $K$ is small, our algorithm can achieve a smaller regret $\tilde{O}( (d \log K)^{1/3} T^{2/3})$ with proper choices of hyperparameters. We also conduct empirical experiments on both synthetic data and a simulated real-world environment, which corroborate our theoretical analysis.
arxiv情報
著者 | Yue Wu,Tao Jin,Hao Lou,Farzad Farnoud,Quanquan Gu |
発行日 | 2023-03-15 17:59:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google