要約
確率的線形バンディット問題に対する最悪の場合のリグアランス保証を備えた改良されたアルゴリズムを紹介します。
広く使用されている「不確実性に対する楽観主義」原理は、確率的バンディット問題を未知の報酬関数の信頼度数列の構築に還元します。
結果として得られるバンディット アルゴリズムのパフォーマンスは信頼シーケンスのサイズに依存し、信頼セットが小さいほど経験的なパフォーマンスが向上し、リグレス保証が強化されます。
この研究では、適応マーチンゲール混合に対する新しいテールバウンドを使用して、確率的バンディットに適した信頼シーケンスを構築します。
これらの信頼シーケンスにより、凸型プログラミングによる効率的なアクションの選択が可能になります。
私たちは、信頼シーケンスに基づいた線形バンディット アルゴリズムが、競争力のある最悪の場合の後悔を達成することが保証されていることを証明します。
私たちは、経験的にも理論的にも、当社の信頼シーケンスが競合他社よりも厳密であることを示しています。
最後に、より厳密な信頼シーケンスにより、いくつかのハイパーパラメーター調整タスクのパフォーマンスが向上することを示します。
要約(オリジナル)
We present improved algorithms with worst-case regret guarantees for the stochastic linear bandit problem. The widely used ‘optimism in the face of uncertainty’ principle reduces a stochastic bandit problem to the construction of a confidence sequence for the unknown reward function. The performance of the resulting bandit algorithm depends on the size of the confidence sequence, with smaller confidence sets yielding better empirical performance and stronger regret guarantees. In this work, we use a novel tail bound for adaptive martingale mixtures to construct confidence sequences which are suitable for stochastic bandits. These confidence sequences allow for efficient action selection via convex programming. We prove that a linear bandit algorithm based on our confidence sequences is guaranteed to achieve competitive worst-case regret. We show that our confidence sequences are tighter than competitors, both empirically and theoretically. Finally, we demonstrate that our tighter confidence sequences give improved performance in several hyperparameter tuning tasks.
arxiv情報
著者 | Hamish Flynn,David Reeb,Melih Kandemir,Jan Peters |
発行日 | 2023-09-25 17:13:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google