要約
確率的組合せセミバンディットの問題を扱う。ここでは、$d$個の基本アイテムを含む集合の冪集合から$P$個のアクションを選択する。最適な後悔の上限を得るためには、問題の構造への適応が不可欠である。共分散行列の係数を推定することは実際には管理可能であるため、それを活用することで後悔が改善されるはずである。我々は、OLSUCBCとCOSV(後者は分散のみ)と呼ばれる、共分散構造のオンライン推定に依存する“最適な”共分散適応アルゴリズムを設計する。どちらもギャップフリーの後悔を改善する。COSVは若干最適でないこともあるが、Thompson Samplingのアプローチからヒントを得ることで、計算の複雑さを改善している。これは、$sqrt{T}$ギャップフリー後悔を満たす最初のサンプリングに基づくアルゴリズムである(多対数まで)。また、$Pgg d$の指数領域だけでなく、既存の解析ではカバーされていない$Pleq d$の場合にも、いくつかのケースにおいて、本アプローチが半バンディットフィードバックを効率的に活用し、バンディットフィードバックアプローチを凌駕することを示す。
要約(オリジナル)
We address the problem of stochastic combinatorial semi-bandits, where a player selects among $P$ actions from the power set of a set containing $d$ base items. Adaptivity to the problem’s structure is essential in order to obtain optimal regret upper bounds. As estimating the coefficients of a covariance matrix can be manageable in practice, leveraging them should improve the regret. We design “optimistic” covariance-adaptive algorithms relying on online estimations of the covariance structure, called OLSUCBC and COSV (only the variances for the latter). They both yields improved gap-free regret. Although COSV can be slightly suboptimal, it improves on computational complexity by taking inspiration from Thompson Sampling approaches. It is the first sampling-based algorithm satisfying a $\sqrt{T}$ gap-free regret (up to poly-logs). We also show that in some cases, our approach efficiently leverages the semi-bandit feedback and outperforms bandit feedback approaches, not only in exponential regimes where $P\gg d$ but also when $P\leq d$, which is not covered by existing analyses.
arxiv情報
著者 | Julien Zhou,Pierre Gaillard,Thibaud Rahier,Houssam Zenati,Julyan Arbel |
発行日 | 2024-07-03 14:29:43+00:00 |
arxivサイト | arxiv_id(pdf) |