Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

要約

この論文は、$d$ 次元の確率的線形バンディット文献における最近の研究によって動機づけられています。この研究では、不安な不一致が明らかになりました。Thompson サンプリングや Greedy などのアルゴリズムは、有望な経験的パフォーマンスを実証していますが、これは、その悲観的な理論的後悔限界とは対照的です。
この課題は、これらのアルゴリズムが特定の問題の場合にはパフォーマンスが低下する可能性があるものの、一般的な場合には優れているという事実から生じます。
これに対処するために、主要な問題パラメータの周囲の不確実性楕円体の幾何学的特性を追跡する新しいデータ駆動型手法を提案します。
この方法論により、Greedy、OFUL、Thompson サンプリングなどの広範なクラスの基本アルゴリズムに対して、幾何学的情報を組み込んだインスタンス依存の頻度主義的リグレアバウトを定式化することができます。
この結果により、基本アルゴリズムのパフォーマンスが低い問題のインスタンスを特定し、「軌道修正」することができます。
軌道修正されたアルゴリズムは、$T$期間の意思決定シナリオにおいて$\tilde{\mathcal{O}}(d\sqrt{T})$のオーダーの最小最適リグロングを達成し、望ましい属性を効果的に維持します。
経験的な有効性を含む基本アルゴリズム。
合成データと実際のデータを使用して調査結果を検証するためのシミュレーション結果を提示します。

要約(オリジナル)

This paper is motivated by recent research in the $d$-dimensional stochastic linear bandit literature, which has revealed an unsettling discrepancy: algorithms like Thompson sampling and Greedy demonstrate promising empirical performance, yet this contrasts with their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometric properties of the uncertainty ellipsoid around the main problem parameter. This methodology enables us to formulate an instance-dependent frequentist regret bound, which incorporates the geometric information, for a broad class of base algorithms, including Greedy, OFUL, and Thompson sampling. This result allows us to identify and “course-correct’ problem instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$ for a $T$-period decision-making scenario, effectively maintaining the desirable attributes of the base algorithms, including their empirical efficacy. We present simulation results to validate our findings using synthetic and real data.

arxiv情報

著者 Yuwei Luo,Mohsen Bayati
発行日 2023-12-30 20:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク