Asymptotically Optimal Fixed-Budget Best Arm Identification with Variance-Dependent Bounds

要約

我々は、予想される単純な後悔を最小限に抑えるための、固定予算のベストアーム識別 (BAI) の問題を調査します。
適応実験では、意思決定者は過去の観察に基づいて複数の治療群のうちの 1 つを描画し、描画された治療群の結果を観察します。
実験後、意思決定者は期待される結果が最も高い治療群を推奨します。
予測される単純な後悔、つまり最良のアームと推奨されるアームの期待される結果の差に基づいて決定を評価します。
本質的に不確実性があるため、ミニマックス基準を使用して後悔を評価します。
まず、潜在的な結果 (先行因子) の分散によって特徴付けられる、最悪の場合に予想される単純な後悔の漸近的下限を導出します。
下限に基づいて、最良のアームを推奨する際に HIR 推定量 (Hirano et al., 2003) を利用する 2 段階 (TS)-Hirano-Imbens-Ridder (HIR) 戦略を提案します。
私たちの理論的分析は、TS-HIR 戦略が漸近的にミニマックス最適であることを示しています。これは、最悪の場合に予想される単純な後悔の主要な要因が、私たちが導出した最悪の場合の下限と一致することを意味します。
さらに、誤認の確率の漸近最適性など、この方法の拡張を検討します。
最後に、提案手法の有効性をシミュレーションにより検証します。

要約(オリジナル)

We investigate the problem of fixed-budget best arm identification (BAI) for minimizing expected simple regret. In an adaptive experiment, a decision maker draws one of multiple treatment arms based on past observations and observes the outcome of the drawn arm. After the experiment, the decision maker recommends the treatment arm with the highest expected outcome. We evaluate the decision based on the expected simple regret, which is the difference between the expected outcomes of the best arm and the recommended arm. Due to inherent uncertainty, we evaluate the regret using the minimax criterion. First, we derive asymptotic lower bounds for the worst-case expected simple regret, which are characterized by the variances of potential outcomes (leading factor). Based on the lower bounds, we propose the Two-Stage (TS)-Hirano-Imbens-Ridder (HIR) strategy, which utilizes the HIR estimator (Hirano et al., 2003) in recommending the best arm. Our theoretical analysis shows that the TS-HIR strategy is asymptotically minimax optimal, meaning that the leading factor of its worst-case expected simple regret matches our derived worst-case lower bound. Additionally, we consider extensions of our method, such as the asymptotic optimality for the probability of misidentification. Finally, we validate the proposed method’s effectiveness through simulations.

arxiv情報

著者 Masahiro Kato,Masaaki Imaizumi,Takuya Ishihara,Toru Kitagawa
発行日 2023-07-12 16:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, math.ST, stat.ME, stat.ML, stat.TH パーマリンク