要約
フォロー・ザ・レギュラー化されたリーダー(FTRL)アルゴリズムは、多くの場合、敵対的および確率的盗賊の問題に対して最適な後悔を享受し、合理化された分析を可能にします。
それにもかかわらず、FTRLアルゴリズムは、すべての反復における最適化問題の解決を必要とするため、計算的に困難です。
対照的に、フォロー・ザ・パルター・リーダー(FTPL)アルゴリズムは、武器の報酬の推定値を摂動することにより計算効率を達成しますが、後悔の分析は面倒です。
敵対的および確率的マルチアライム盗賊の両方に最適なポリシーを生成する新しいFTPLアルゴリズムを提案します。
FTRLと同様に、私たちのアルゴリズムは統一された後悔分析を認め、FTPLと同様に、計算コストが低くなります。
\ textit {既知の}分布に準拠した独立した添加剤の妨害に依存する既存のFTPLアルゴリズムとは異なり、特定のセットに属することが知られている\ textit {Amviguous}分布によって支配された妨害を可能にし、楽観主義の原則を提案します。
あいまいさの顔。
その結果、我々のフレームワークは既存のFTPLアルゴリズムを一般化します。
また、現在のFTPLメソッドでは不可能であると思われるいくつかの最適なケースを含む、特別なケースとして広範なFTRLメソッドをカプセル化します。
最後に、離散選択理論の手法を使用して、楽観的なアームサンプリング確率を計算するための効率的な二等分アルゴリズムを考案します。
このアルゴリズムは、すべての反復で最適化の問題を解決する標準のFTRLアルゴリズムよりも最大$ 10^4 $倍高速です。
私たちの結果は、既存の推測を解決するだけでなく、FTRLをFTPLにマッピングすることにより、摂動の影響に関する新しい洞察を提供します。
要約(オリジナル)
Follow-The-Regularized-Leader (FTRL) algorithms often enjoy optimal regret for adversarial as well as stochastic bandit problems and allow for a streamlined analysis. Nonetheless, FTRL algorithms require the solution of an optimization problem in every iteration and are thus computationally challenging. In contrast, Follow-The-Perturbed-Leader (FTPL) algorithms achieve computational efficiency by perturbing the estimates of the rewards of the arms, but their regret analysis is cumbersome. We propose a new FTPL algorithm that generates optimal policies for both adversarial and stochastic multi-armed bandits. Like FTRL, our algorithm admits a unified regret analysis, and similar to FTPL, it offers low computational costs. Unlike existing FTPL algorithms that rely on independent additive disturbances governed by a \textit{known} distribution, we allow for disturbances governed by an \textit{ambiguous} distribution that is only known to belong to a given set and propose a principle of optimism in the face of ambiguity. Consequently, our framework generalizes existing FTPL algorithms. It also encapsulates a broad range of FTRL methods as special cases, including several optimal ones, which appears to be impossible with current FTPL methods. Finally, we use techniques from discrete choice theory to devise an efficient bisection algorithm for computing the optimistic arm sampling probabilities. This algorithm is up to $10^4$ times faster than standard FTRL algorithms that solve an optimization problem in every iteration. Our results not only settle existing conjectures but also provide new insights into the impact of perturbations by mapping FTRL to FTPL.
arxiv情報
著者 | Mengmeng Li,Daniel Kuhn,Bahar Taşkesen |
発行日 | 2025-02-13 16:35:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google