要約
バンディット最適化のコンテキストにおけるモデルの選択は、アクションの選択だけでなくモデルの選択でも探索と活用のバランスを取る必要があるため、困難な問題です。
自然なアプローチの 1 つは、さまざまなモデルを専門家として扱うオンライン学習アルゴリズムに依存することです。
しかし、既存の方法は、モデル $M$ の数に応じて拡張性が不十分 ($\text{poly}M$) という点で残念です。
私たちの重要な洞察は、線形バンディットにおけるモデル選択の場合、バイアスと分散のトレードオフを有利に保ちながら、オンライン学習者への全情報フィードバックをエミュレートできるということです。
これにより、残念ながら $M$ への依存性が飛躍的に改善された ($\log M$) ALEXP の開発が可能になります。
ALEXP はいつでもその後悔を保証しており、地平線 $n$ の知識を必要とせず、最初の純粋に探索的な段階に依存しません。
私たちのアプローチはなげなわの新しい時間均一分析を利用し、オンライン学習と高次元統計の間の新しい接続を確立します。
要約(オリジナル)
Model selection in the context of bandit optimization is a challenging problem, as it requires balancing exploration and exploitation not only for action selection, but also for model selection. One natural approach is to rely on online learning algorithms that treat different models as experts. Existing methods, however, scale poorly ($\text{poly}M$) with the number of models $M$ in terms of their regret. Our key insight is that, for model selection in linear bandits, we can emulate full-information feedback to the online learner with a favorable bias-variance trade-off. This allows us to develop ALEXP, which has an exponentially improved ($\log M$) dependence on $M$ for its regret. ALEXP has anytime guarantees on its regret, and neither requires knowledge of the horizon $n$, nor relies on an initial purely exploratory stage. Our approach utilizes a novel time-uniform analysis of the Lasso, establishing a new connection between online learning and high-dimensional statistics.
arxiv情報
著者 | Parnian Kassraie,Aldo Pacchiano,Nicolas Emmenegger,Andreas Krause |
発行日 | 2023-07-24 15:44:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google