要約
固定バジェット バンディットの識別では、アルゴリズムは、いくつかの分布から特定の最終時間までサンプルを順次観察します。
次に、一連の分布に関するクエリに答えます。
優れたアルゴリズムでは、エラーが発生する可能性が低くなります。
その確率は最終時間とともに指数関数的に減少しますが、ほとんどの識別タスクでは達成可能な最高のレートは正確にはわかりません。
固定予算のタスクが、すべてのバンディット問題に対して単一のアルゴリズムによって達成されるエラー確率の下限として定義される複雑さを許容する場合、その複雑さは、その問題に対する最適な非適応サンプリング手順によって決定されることを示します。
.
2 本のアームを使用したベルヌーイ ベスト アームの識別を含む、いくつかの固定予算の識別タスクでは、このような複雑さがないことを示します。あらゆる場所で可能な限り最高のレートを達成する単一のアルゴリズムはありません。
要約(オリジナル)
In fixed budget bandit identification, an algorithm sequentially observes samples from several distributions up to a given final time. It then answers a query about the set of distributions. A good algorithm will have a small probability of error. While that probability decreases exponentially with the final time, the best attainable rate is not known precisely for most identification tasks. We show that if a fixed budget task admits a complexity, defined as a lower bound on the probability of error which is attained by a single algorithm on all bandit problems, then that complexity is determined by the best non-adaptive sampling procedure for that problem. We show that there is no such complexity for several fixed budget identification tasks including Bernoulli best arm identification with two arms: there is no single algorithm that attains everywhere the best possible rate.
arxiv情報
著者 | Rémy Degenne |
発行日 | 2023-03-16 16:39:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google