この設定では、エージェントはロジスティック関数、$ \ exp(\ beta \ langle a、\ theta \ rangle)によって決定される確率でバイナリ報酬を受け取ります。
)$、Slopeパラメーター$ \ beta> 0 $、および両方のアクション$ a \ in \ mathcal {a} $とパラメーターの両方
$ \ theta \ in \ mathcal {o} $ $ d $ -dimensionalユニットボール内にあります。
Russo and Van Roy(2016)によって導入された情報理論的フレームワークを採用すると、情報比を分析します。これは、発生した即時の後悔と最適なアクションについて得られた情報のトレードオフを定量化する統計です。
情報比は$ \ tfrac {9} {2} d \ alpha^{-2} $で制限されることを確立することにより、以前の結果を改善します。
\ mathcal {a} $およびパラメータースペース$ \ mathcal {o} $、$ \ beta $に依存しません。
この結果を使用して、$ t $の時間ステップ後に発生したトンプソンサンプリングの予想されるベイジアンの$ o(d/\ alpha \ sqrt {t \ log(\ beta t/d)})$の境界を導き出します。
私たちの知る限り、これは、アクションの数とは独立している間、$ \ beta $に対数的にのみ依存するロジスティックバンディットに縛られた最初の後悔です。
特に、アクション空間にパラメーター空間が含まれている場合、予想される後悔のバウンドは$ \ Tilde {o}(d \ sqrt {t})$です。
We study the performance of the Thompson Sampling algorithm for logistic bandit problems. In this setting, an agent receives binary rewards with probabilities determined by a logistic function, $\exp(\beta \langle a, \theta \rangle)/(1+\exp(\beta \langle a, \theta \rangle))$, with slope parameter $\beta>0$, and where both the action $a\in \mathcal{A}$ and parameter $\theta \in \mathcal{O}$ lie within the $d$-dimensional unit ball. Adopting the information-theoretic framework introduced by Russo and Van Roy (2016), we analyze the information ratio, a statistic that quantifies the trade-off between the immediate regret incurred and the information gained about the optimal action. We improve upon previous results by establishing that the information ratio is bounded by $\tfrac{9}{2}d\alpha^{-2}$, where $\alpha$ is a minimax measure of the alignment between the action space $\mathcal{A}$ and the parameter space $\mathcal{O}$, and is independent of $\beta$. Using this result, we derive a bound of order $O(d/\alpha\sqrt{T \log(\beta T/d)})$ on the Bayesian expected regret of Thompson Sampling incurred after $T$ time steps. To our knowledge, this is the first regret bound for logistic bandits that depends only logarithmically on $\beta$ while being independent of the number of actions. In particular, when the action space contains the parameter space, the bound on the expected regret is of order $\tilde{O}(d \sqrt{T})$.
著者 | Amaury Gouverneur,Borja Rodríguez-Gálvez,Tobias J. Oechtering,Mikael Skoglund |
発行日 | 2025-02-20 18:24:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google