Regret Distribution in Stochastic Bandits: Optimal Trade-off between Expectation and Tail Risk

要約

タイトル:確率バンディット問題におけるRegret分布:期待値とテールリスクの最適なトレードオフ

要約:

– 確率的マルチアームバンディット問題における、Regret分布における期待値とテールリスクのトレードオフを研究する。
– 政策設計に関する3つの望ましい特性の相互作用(最悪ケースでの最適性、インスタンス依存の一貫性、軽めのリスク)を完全に特徴づける。
– 期待Regretの順序が、最悪ケースとインスタンス依存の両シナリオでRegretテール確率の減衰率に正確に影響することを示す。
– Regret閾値に対する最適なRegretテール確率を特徴づける新しいポリシーが提案される。
– 確かな $\alpha \in [1/2, 1)$ と $\beta \in [0, \alpha]$ に対して、提案されたポリシーは、最悪ケースで $\tilde{O}(T^{\alpha})$($\alpha$-最適)、インスタンス依存で $\tilde{O}(T^{\beta})$($\beta$-一貫)の期待Regretを実現し、同時に、Regret($\delta\geq\alpha$の最悪ケースシナリオと$\delta\geq\beta$のインスタンス依存シナリオの両方で)の発生確率が、多項式$T$項を指数関数的に減衰する。
– このような減衰率が最適であることが証明される。
– さらに、(1)ノンステーショナリーベースライン報酬を持つ確率的マルチアームバンディット設定、および(2)確率的線形バンディット設定に、提案されたポリシー設計を拡張する。
– 最悪ケースとインスタンス依存の両シナリオにおけるRegret期待値とRegretテールリスクのトレードオフに関するインサイトを明らかにし、サブオプティマリティと一貫性が増えるほど、大きなRegretを発生させるリスクがより軽減されるスペースがあることを示し、事前に計画の時間枠を知っていることがテールリスクの緩和に影響を与えることを示している。

要約(オリジナル)

We study the trade-off between expectation and tail risk for regret distribution in the stochastic multi-armed bandit problem. We fully characterize the interplay among three desired properties for policy design: worst-case optimality, instance-dependent consistency, and light-tailed risk. We show how the order of expected regret exactly affects the decaying rate of the regret tail probability for both the worst-case and instance-dependent scenario. A novel policy is proposed to characterize the optimal regret tail probability for any regret threshold. Concretely, for any given $\alpha\in[1/2, 1)$ and $\beta\in[0, \alpha]$, our policy achieves a worst-case expected regret of $\tilde O(T^\alpha)$ (we call it $\alpha$-optimal) and an instance-dependent expected regret of $\tilde O(T^\beta)$ (we call it $\beta$-consistent), while enjoys a probability of incurring an $\tilde O(T^\delta)$ regret ($\delta\geq\alpha$ in the worst-case scenario and $\delta\geq\beta$ in the instance-dependent scenario) that decays exponentially with a polynomial $T$ term. Such decaying rate is proved to be best achievable. Moreover, we discover an intrinsic gap of the optimal tail rate under the instance-dependent scenario between whether the time horizon $T$ is known a priori or not. Interestingly, when it comes to the worst-case scenario, this gap disappears. Finally, we extend our proposed policy design to (1) a stochastic multi-armed bandit setting with non-stationary baseline rewards, and (2) a stochastic linear bandit setting. Our results reveal insights on the trade-off between regret expectation and regret tail risk for both worst-case and instance-dependent scenarios, indicating that more sub-optimality and inconsistency leave space for more light-tailed risk of incurring a large regret, and that knowing the planning horizon in advance can make a difference on alleviating tail risks.

arxiv情報

著者 David Simchi-Levi,Zeyu Zheng,Feng Zhu
発行日 2023-04-10 01:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク