Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

要約

この論文は、線形バンディット文献の最近の発展によって動機づけられています。この研究では、トンプソン サンプリングやグリーディなどのアルゴリズムの有望な経験的パフォーマンスと、悲観的な理論上のリグレス限界との差異が明らかになりました。
この課題は、これらのアルゴリズムが特定の問題の場合にはパフォーマンスが低下する可能性があるものの、一般的な場合には優れているという事実から生じます。
これに対処するために、不確実性楕円体の幾何学的形状を追跡する新しいデータ駆動型手法を提案します。これにより、Greedy、OFUL、Thompson サンプリングなどの広範なクラスのアルゴリズムに限定されたインスタンス依存の頻度主義的リグレスを確立できるようになります。
この結果により、基本アルゴリズムのパフォーマンスが低いインスタンスを特定して「軌道修正」することが可能になります。
軌道修正されたアルゴリズムは、基本アルゴリズムの望ましい特性のほとんどを保持しながら、次数 $\tilde{\mathcal{O}}(d\sqrt{T})$ の最小最適リグレスを達成します。
シミュレーション結果を提示して調査結果を検証し、アルゴリズムのパフォーマンスをベースラインと比較します。

要約(オリジナル)

This paper is motivated by recent developments in the linear bandit literature, which have revealed a discrepancy between the promising empirical performance of algorithms such as Thompson sampling and Greedy, when compared to their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometry of the uncertainty ellipsoid, enabling us to establish an instance-dependent frequentist regret bound for a broad class of algorithms, including Greedy, OFUL, and Thompson sampling. This result empowers us to identify and “course-correct’ instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$, while retaining most of the desirable properties of the base algorithms. We present simulation results to validate our findings and compare the performance of our algorithms with the baselines.

arxiv情報

著者 Yuwei Luo,Mohsen Bayati
発行日 2023-06-26 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク