要約
固定信頼の下で、マルチアームバンディットモデルにおける最良のアーム識別の問題を検討します。
信頼度入力 $\delta$ が与えられた場合、目標は、アームを引く回数を最小限に抑えながら、少なくとも 1 — $\delta$ の確率で最高の平均報酬を持つアームを特定することです。
文献では、武器が独立して分配されるという仮定の下でこの問題の解決策が提供されていますが、私たちは、武器が依存し、報酬が同時にサンプリングできる、より柔軟なシナリオを提案します。
このフレームワークを使用すると、学習者はアームの分布間の共分散を推定できるため、最適なアームをより効率的に特定できます。
私たちが提案するリラックスした設定は、患者や薬剤間の類似性が結果の根底にある相関関係を示唆する臨床試験など、さまざまな用途に適しています。
アームの未知の共分散に適応する新しいアルゴリズムを導入し、標準設定よりも大幅な改善が達成できることを理論的保証を通じて実証します。
さらに、緩和設定の新しい下限を提供し、理論的発見を裏付ける数値シミュレーションを提示します。
要約(オリジナル)
We consider the problem of best arm identification in the multi-armed bandit model, under fixed confidence. Given a confidence input $\delta$, the goal is to identify the arm with the highest mean reward with a probability of at least 1 — $\delta$, while minimizing the number of arm pulls. While the literature provides solutions to this problem under the assumption of independent arms distributions, we propose a more flexible scenario where arms can be dependent and rewards can be sampled simultaneously. This framework allows the learner to estimate the covariance among the arms distributions, enabling a more efficient identification of the best arm. The relaxed setting we propose is relevant in various applications, such as clinical trials, where similarities between patients or drugs suggest underlying correlations in the outcomes. We introduce new algorithms that adapt to the unknown covariance of the arms and demonstrate through theoretical guarantees that substantial improvement can be achieved over the standard setting. Additionally, we provide new lower bounds for the relaxed setting and present numerical simulations that support their theoretical findings.
arxiv情報
著者 | El Mehdi Saad,Gilles Blanchard,Nicolas Verzelen |
発行日 | 2023-12-20 15:01:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google