Combinatorial Multi-armed Bandits: Arm Selection via Group Testing

要約

この論文では、セミバンディット フィードバックとスーパーアーム サイズに対するカーディナリティ制約を備えた組み合わせマルチアーム バンディットの問題を検討します。
この問題を解決するための既存のアルゴリズムには通常、2 つの主要なサブルーチンが含まれます。(1) 一連のベース アーム パラメータを順次推定するパラメータ推定ルーチン、および (2) ベース アームのサブセットとみなされるものを選択するスーパー アーム選択ポリシー
これらのパラメータに基づいて最適化されます。
最先端のアルゴリズムは、無制限の計算能力でスーパーアームを選択するための正確なオラクルへのアクセスを前提としています。
各インスタンスで、このオラクルはスコア関数のリストを評価します。スコア関数の数は、アームの数に応じて、最小値では直線的に、最大値では指数関数的に増加します。
これは、多数の武器を保有する体制では法外な行為となる可能性があります。
この論文では、完璧な神託に代わる新しい現実的な方法を紹介します。
このアルゴリズムは、スーパー アームを選択するためのグループ テストとパラメータ推定のための量子化トンプソン サンプリングの組み合わせを使用します。
報酬関数に関する一般的な分離可能性の仮定の下で、提案されたアルゴリズムは、スーパーアーム選択オラクルの複雑さをベースアームの数で対数になるように削減し、同時に、最先端のアルゴリズムと同じリグレスオーダーを達成します。
正確なオラクルを使用します。
これは、Oracle ベースのアプローチと比較して、複雑さが少なくとも指数関数的に軽減されることを意味します。

要約(オリジナル)

This paper considers the problem of combinatorial multi-armed bandits with semi-bandit feedback and a cardinality constraint on the super-arm size. Existing algorithms for solving this problem typically involve two key sub-routines: (1) a parameter estimation routine that sequentially estimates a set of base-arm parameters, and (2) a super-arm selection policy for selecting a subset of base arms deemed optimal based on these parameters. State-of-the-art algorithms assume access to an exact oracle for super-arm selection with unbounded computational power. At each instance, this oracle evaluates a list of score functions, the number of which grows as low as linearly and as high as exponentially with the number of arms. This can be prohibitive in the regime of a large number of arms. This paper introduces a novel realistic alternative to the perfect oracle. This algorithm uses a combination of group-testing for selecting the super arms and quantized Thompson sampling for parameter estimation. Under a general separability assumption on the reward function, the proposed algorithm reduces the complexity of the super-arm-selection oracle to be logarithmic in the number of base arms while achieving the same regret order as the state-of-the-art algorithms that use exact oracles. This translates to at least an exponential reduction in complexity compared to the oracle-based approaches.

arxiv情報

著者 Arpan Mukherjee,Shashanka Ubaru,Keerthiram Murugesan,Karthikeyan Shanmugam,Ali Tajer
発行日 2024-10-14 16:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT, stat.ML パーマリンク