Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits

要約

確率的組合せセミバンディットの問題を扱う。ここでは、$d$個の基本アイテムを含む集合の冪集合から$P$個のアクションを選択する。最適な後悔の上限を得るためには、問題の構造への適応が不可欠である。共分散行列の係数を推定することは実際には管理可能であるため、それを活用することで後悔が改善されるはずである。我々は、OLSUCBCとCOSV(後者は分散のみ)と呼ばれる、共分散構造のオンライン推定に依存する“最適な”共分散適応アルゴリズムを設計する。どちらもギャップフリーの後悔を改善する。COSVは若干最適でないこともあるが、Thompson Samplingのアプローチからヒントを得ることで、計算の複雑さを改善している。これは、$sqrt{T}$ギャップフリー後悔を満たす最初のサンプリングに基づくアルゴリズムである(多対数まで)。また、$Pgg d$の指数領域だけでなく、既存の解析ではカバーされていない$Pleq d$の場合にも、いくつかのケースにおいて、本アプローチが半バンディットフィードバックを効率的に活用し、バンディットフィードバックアプローチを凌駕することを示す。

要約(オリジナル)

We address the problem of stochastic combinatorial semi-bandits, where a player selects among $P$ actions from the power set of a set containing $d$ base items. Adaptivity to the problem’s structure is essential in order to obtain optimal regret upper bounds. As estimating the coefficients of a covariance matrix can be manageable in practice, leveraging them should improve the regret. We design “optimistic” covariance-adaptive algorithms relying on online estimations of the covariance structure, called OLSUCBC and COSV (only the variances for the latter). They both yields improved gap-free regret. Although COSV can be slightly suboptimal, it improves on computational complexity by taking inspiration from Thompson Sampling approaches. It is the first sampling-based algorithm satisfying a $\sqrt{T}$ gap-free regret (up to poly-logs). We also show that in some cases, our approach efficiently leverages the semi-bandit feedback and outperforms bandit feedback approaches, not only in exponential regimes where $P\gg d$ but also when $P\leq d$, which is not covered by existing analyses.

arxiv情報

著者 Julien Zhou,Pierre Gaillard,Thibaud Rahier,Houssam Zenati,Julyan Arbel
発行日 2024-07-03 14:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク