要約
タイトル:有限精度サンプリングにおけるバンディット問題におけるベストアームの特定
要約:
– この研究は、学習者がアーム選択において制限された精度を持つバンディット問題の変種におけるベストアームの特定について検討している。
– 学習者は、一定の探査バンドル(ボックスと呼ばれる)を介してのみアームをサンプリングすることができる。
– 特に、各サンプリングエポックでは、学習者がボックスを選択し、それに応じてアームが引かれます。
– 引かれたアームとその瞬時の報酬は学習者に明らかにされます。
– 学習者の目標は、エラー確率の上限に従って、予想される停止時間を最小化することによって、最高のアームを見つけることです。
– エラー確率がゼロに近づくにつれて、期待される停止時間について漸近的な下限を示します。
– 漸近的に最適な割り当てが非一意であるため、その最適な割り当てを追跡することは、一般的に困難です。
– それに対処するための変更された追跡ベースのアルゴリズムを提案し、それが漸近的に最適であることを実証します。
– アームが他のアームと重複してアクセス可能でない場合には、停止時間について非漸近的な下限と上限を示します。
要約(オリジナル)
We study best arm identification in a variant of the multi-armed bandit problem where the learner has limited precision in arm selection. The learner can only sample arms via certain exploration bundles, which we refer to as boxes. In particular, at each sampling epoch, the learner selects a box, which in turn causes an arm to get pulled as per a box-specific probability distribution. The pulled arm and its instantaneous reward are revealed to the learner, whose goal is to find the best arm by minimising the expected stopping time, subject to an upper bound on the error probability. We present an asymptotic lower bound on the expected stopping time, which holds as the error probability vanishes. We show that the optimal allocation suggested by the lower bound is, in general, non-unique and therefore challenging to track. We propose a modified tracking-based algorithm to handle non-unique optimal allocations, and demonstrate that it is asymptotically optimal. We also present non-asymptotic lower and upper bounds on the stopping time in the simpler setting when the arms accessible from one box do not overlap with those of others.
arxiv情報
著者 | Kota Srinivas Reddy,P. N. Karthik,Nikhil Karamchandani,Jayakrishnan Nair |
発行日 | 2023-05-10 12:07:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI