Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits


この論文は、線形バンディット文献の最近の発展によって動機づけられています。この研究では、トンプソン サンプリングやグリーディなどのアルゴリズムの有望な経験的パフォーマンスと、悲観的な理論上のリグレス限界との差異が明らかになりました。
これに対処するために、不確実性楕円体の幾何学的形状を追跡する新しいデータ駆動型手法を提案します。これにより、Greedy、OFUL、Thompson サンプリングなどの広範なクラスのアルゴリズムに限定されたインスタンス依存の頻度主義的リグレスを確立できるようになります。
軌道修正されたアルゴリズムは、基本アルゴリズムの望ましい特性のほとんどを保持しながら、次数 $\tilde{\mathcal{O}}(d\sqrt{T})$ の最小最適リグレスを達成します。


This paper is motivated by recent developments in the linear bandit literature, which have revealed a discrepancy between the promising empirical performance of algorithms such as Thompson sampling and Greedy, when compared to their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometry of the uncertainty ellipsoid, enabling us to establish an instance-dependent frequentist regret bound for a broad class of algorithms, including Greedy, OFUL, and Thompson sampling. This result empowers us to identify and “course-correct’ instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$, while retaining most of the desirable properties of the base algorithms. We present simulation results to validate our findings and compare the performance of our algorithms with the baselines.


著者 Yuwei Luo,Mohsen Bayati
発行日 2023-06-26 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, stat.ML パーマリンク