要約
私たちは、線形コンテキストバンディット問題に対する探索不要の貪欲アルゴリズムのパフォーマンス保証を研究します。
\textit{ローカル反集中} (LAC) 条件と呼ばれる新しい条件を導入します。これにより、貪欲なバンディット アルゴリズムが証明可能な効率を達成できるようになります。
LAC 条件は、ガウス分布、指数分布、一様分布、コーシー分布、Student’s~$t$ 分布、その他の指数分布族分布およびその切り捨てられた分布を含む広範なクラスの分布によって満たされることを示します。
これにより、貪欲なアルゴリズムが効率的に実行できる分布のクラスが大幅に拡張されます。
私たちが提案した LAC 条件の下では、線形コンテキスト バンディットに対する貪欲アルゴリズムの累積予想リグレットが $O(\operatorname{poly} \log T)$ によって制限されることを証明します。
私たちの結果は、これまでに知られている最も広い範囲の分布を確立し、貪欲なアルゴリズムに制限されたサブリニアリグレスを可能にし、さらに鋭い多対数リグレスを実現します。
要約(オリジナル)
We study the performance guarantees of exploration-free greedy algorithms for the linear contextual bandit problem. We introduce a novel condition, named the \textit{Local Anti-Concentration} (LAC) condition, which enables a greedy bandit algorithm to achieve provable efficiency. We show that the LAC condition is satisfied by a broad class of distributions, including Gaussian, exponential, uniform, Cauchy, and Student’s~$t$ distributions, along with other exponential family distributions and their truncated variants. This significantly expands the class of distributions under which greedy algorithms can perform efficiently. Under our proposed LAC condition, we prove that the cumulative expected regret of the greedy algorithm for the linear contextual bandit is bounded by $O(\operatorname{poly} \log T)$. Our results establish the widest range of distributions known to date that allow a sublinear regret bound for greedy algorithms, further achieving a sharp poly-logarithmic regret.
arxiv情報
著者 | Seok-Jin Kim,Min-hwan Oh |
発行日 | 2025-01-16 15:46:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google