要約
このペーパーでは、$ k $の独立したアームのセットから最高の分散で腕を選択することに焦点を当てています。
具体的には、2つの設定に焦点を当てています。(i)後悔の設定、それは分散の観点から次の腕のプルの数をペナルティし、(ii)固定数のプルの後に最も高い分散でアームを決定するアルゴリズムの能力を評価する固定予算BAI設定。
後悔のために\ texttt {ucb-vv}と呼ばれる新しいオンラインアルゴリズムを開発し、境界のある報酬に対する後悔に対する上限が$ \ mathcal {o} \ left(\ log {n} \ right)$ $ n $ of($ n $が地平線であることを示します。
後悔の下限を導き出すことにより、\ texttt {ucb-vv}が最適であることを示します。
固定予算BAI設定については、\ texttt {shvv}アルゴリズムを提案します。
\ texttt {shvv}のエラー確率の上限は、$ \ exp \ left( –  \ frac {n} {\ log(k)h} \ right)$として進化することを示します。
サンプルの分散に対する新規濃度の不平等を使用して、フレームワークを境界分布からサブガウス分布に拡張します。
同じことを活用すると、以前は文献では知られていなかった、ガウス帯分布の経験的シャープ比(SR)の濃度不平等を導き出します。
経験的シミュレーションは、\ texttt {ucb-vv}が一貫して\ texttt {$ \ epsilon $ -greedy}を異なるサブオプティマリティギャップで上回ることを示していますが、\ texttt {vts}が上回ります。
また、均一なサンプリングに対する6つの異なるセットアップの下で固定された予算設定について、\ texttt {shvv}の優れた性能を示します。
最後に、幾何学的なブラウンモーション(GBM)を使用して生成された100ドルの株式でのコールオプション取引で、\ texttt {ucb-vv}および\ texttt {shvv}のパフォーマンスを経験的に評価するためのケーススタディを実施します。
要約(オリジナル)
This paper focuses on selecting the arm with the highest variance from a set of $K$ independent arms. Specifically, we focus on two settings: (i) regret setting, that penalizes the number of pulls of suboptimal arms in terms of variance, and (ii) fixed-budget BAI setting, that evaluates the ability of an algorithm to determine the arm with the highest variance after a fixed number of pulls. We develop a novel online algorithm called \texttt{UCB-VV} for the regret setting and show that its upper bound on regret for bounded rewards evolves as $\mathcal{O}\left(\log{n}\right)$ where $n$ is the horizon. By deriving the lower bound on the regret, we show that \texttt{UCB-VV} is order optimal. For the fixed budget BAI setting, we propose the \texttt{SHVV} algorithm. We show that the upper bound of the error probability of \texttt{SHVV} evolves as $\exp\left(-\frac{n}{\log(K) H}\right)$, where $H$ represents the complexity of the problem, and this rate matches the corresponding lower bound. We extend the framework from bounded distributions to sub-Gaussian distributions using a novel concentration inequality on the sample variance. Leveraging the same, we derive a concentration inequality for the empirical Sharpe ratio (SR) for sub-Gaussian distributions, which was previously unknown in the literature. Empirical simulations show that \texttt{UCB-VV} consistently outperforms \texttt{$\epsilon$-greedy} across different sub-optimality gaps, though it is surpassed by \texttt{VTS}, which exhibits the lowest regret, albeit lacking in theoretical guarantees. We also illustrate the superior performance of \texttt{SHVV}, for a fixed budget setting under 6 different setups against uniform sampling. Finally, we conduct a case study to empirically evaluate the performance of the \texttt{UCB-VV} and \texttt{SHVV} in call option trading on $100$ stocks generated using geometric Brownian motion (GBM).
arxiv情報
| 著者 | Sabrina Khurshid,Gourab Ghatak,Mohammad Shahid Abdulla | 
| 発行日 | 2025-05-20 17:01:38+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
