要約
私たちは確率的マルチアームバンディット問題を研究し、予想されるリグアロングに対する最悪の場合の最適性とリグメント分布に対するライトテールリスクの両方を享受する新しい政策を設計します。
具体的には、私たちのポリシー設計は、(i) $O(\sqrt{KT\ln T})$ の順序で予想される後悔に対する最悪の場合の最適性を享受しており、(ii) より大きな後悔を引き起こす最悪の場合のテール確率を持っています。
$x>0$ は $\exp(-\Omega(x/\sqrt{KT}))$ によって上限が制限されます。これは、すべての最悪の最適条件について $T$ に関して最も達成可能であることが証明されているレートです。
ポリシー。
私たちが提案するポリシーは、標準的な信頼限定ベースのポリシーと比較して、期間の開始時により多くの探査を行うことと、終わりに近づくにつれてより多くの活用を行うこととの間の微妙なバランスを実現しています。
また、$T$ が事前に不明な「いつでも」設定に対応できるようにポリシー設計を強化し、$T$ が既知の「固定時間」設定と比較して同等に望ましいポリシーのパフォーマンスを証明します。
理論的発見を説明するために数値実験が行われます。
経営的な観点から見ると、当社の新しい政策設計はより良いテール分配をもたらし、特に (i) ボラティリティプロファイルを過小評価するリスクがある場合、または (ii) 政策の調整が課題である場合には、有名な政策よりも好ましいことがわかりました。
ハイパーパラメータ。
最後に、私たちが提案するポリシー設計を確率的線形バンディット設定に拡張し、予想されるリグレスとリグレス分布におけるライトテールリスクの両方に関して最悪の場合の最適性をもたらします。
要約(オリジナル)
We study the stochastic multi-armed bandit problem and design new policies that enjoy both worst-case optimality for expected regret and light-tailed risk for regret distribution. Specifically, our policy design (i) enjoys the worst-case optimality for the expected regret at order $O(\sqrt{KT\ln T})$ and (ii) has the worst-case tail probability of incurring a regret larger than any $x>0$ being upper bounded by $\exp(-\Omega(x/\sqrt{KT}))$, a rate that we prove to be best achievable with respect to $T$ for all worst-case optimal policies. Our proposed policy achieves a delicate balance between doing more exploration at the beginning of the time horizon and doing more exploitation when approaching the end, compared to standard confidence-bound-based policies. We also enhance the policy design to accommodate the ‘any-time’ setting where $T$ is unknown a priori, and prove equivalently desired policy performances as compared to the ‘fixed-time’ setting with known $T$. Numerical experiments are conducted to illustrate the theoretical findings. We find that from a managerial perspective, our new policy design yields better tail distributions and is preferable than celebrated policies especially when (i) there is a risk of under-estimating the volatility profile, or (ii) there is a challenge of tuning policy hyper-parameters. We conclude by extending our proposed policy design to the stochastic linear bandit setting that leads to both worst-case optimality in terms of expected regret and light-tailed risk on the regret distribution.
arxiv情報
著者 | David Simchi-Levi,Zeyu Zheng,Feng Zhu |
発行日 | 2024-07-22 14:45:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google