Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits

要約

Follow-The- Regularized-Leader (FTRL) アルゴリズムは、多くの場合、敵対的および確率的バンディット問題に対して最適なリアクションを実現し、合理化された分析を可能にします。
それにもかかわらず、FTRL アルゴリズムは反復ごとに最適化問題を解決する必要があるため、計算が困難です。
対照的に、Follow-The-Perturbed-Leader (FTPL) アルゴリズムは、アームの報酬の推定値に摂動を与えることで計算効率を向上させますが、その後悔分析は面倒です。
我々は、敵対的および確率的多腕盗賊の両方に対して最適なポリシーを生成する新しい FTPL アルゴリズムを提案します。
FTRL と同様に、私たちのアルゴリズムは統合されたリグレス分析を可能にし、FTPL と同様に低い計算コストを提供します。
\textit{known} 分布によって支配される独立した加法的外乱に依存する既存の FTPL アルゴリズムとは異なり、与えられた集合に属することだけが知られている \textit{ambiguous} 分布によって支配される外乱を許容し、次のような楽観主義の原理を提案します。
曖昧な顔。
その結果、私たちのフレームワークは既存の FTPL アルゴリズムを一般化します。
また、現在の FTPL メソッドでは不可能と思われるいくつかの最適なメソッドを含む、広範囲の FTRL メソッドを特殊なケースとしてカプセル化します。
最後に、離散選択理論の手法を使用して、楽観的アームのサンプリング確率を計算するための効率的な二分アルゴリズムを考案します。
このアルゴリズムは、反復ごとに最適化問題を解決する標準の FTRL アルゴリズムよりも最大 $10^4$ 倍高速です。
私たちの結果は、既存の推測を解決するだけでなく、FTRL を FTPL にマッピングすることにより、摂動の影響についての新たな洞察も提供します。

要約(オリジナル)

Follow-The-Regularized-Leader (FTRL) algorithms often enjoy optimal regret for adversarial as well as stochastic bandit problems and allow for a streamlined analysis. Nonetheless, FTRL algorithms require the solution of an optimization problem in every iteration and are thus computationally challenging. In contrast, Follow-The-Perturbed-Leader (FTPL) algorithms achieve computational efficiency by perturbing the estimates of the rewards of the arms, but their regret analysis is cumbersome. We propose a new FTPL algorithm that generates optimal policies for both adversarial and stochastic multi-armed bandits. Like FTRL, our algorithm admits a unified regret analysis, and similar to FTPL, it offers low computational costs. Unlike existing FTPL algorithms that rely on independent additive disturbances governed by a \textit{known} distribution, we allow for disturbances governed by an \textit{ambiguous} distribution that is only known to belong to a given set and propose a principle of optimism in the face of ambiguity. Consequently, our framework generalizes existing FTPL algorithms. It also encapsulates a broad range of FTRL methods as special cases, including several optimal ones, which appears to be impossible with current FTPL methods. Finally, we use techniques from discrete choice theory to devise an efficient bisection algorithm for computing the optimistic arm sampling probabilities. This algorithm is up to $10^4$ times faster than standard FTRL algorithms that solve an optimization problem in every iteration. Our results not only settle existing conjectures but also provide new insights into the impact of perturbations by mapping FTRL to FTPL.

arxiv情報

著者 Mengmeng Li,Daniel Kuhn,Bahar Taskesen
発行日 2024-09-30 16:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク