要約
この論文は、良い腕識別 (GAI) と呼ばれる確率的多腕バンディット問題の変形を対象としています。
GAI は、できるだけ少ないサンプルを使用して多くの優れた腕を出力することを目標とする純粋探索バンディット問題です。優れた腕とは、期待される報酬が所定のしきい値よりも大きい腕として定義されます。
この作業では、データ駆動型の方法で最先端の HDoC アルゴリズムのサンプルの複雑さを改善する微分可能な優れたアーム識別アルゴリズムである DGAI を提案します。
また、DGAI は、アーム セットに対する事前知識としてしきい値を指定すると、一般的なマルチアーム バンディット (MAB) 問題のパフォーマンスをさらに向上させることができることも示しました。
広範な実験により、GAI タスクと MAB タスクの両方の合成データセットと実世界データセットの両方で、アルゴリズムがベースライン アルゴリズムよりも大幅に優れていることが確認されています。
要約(オリジナル)
This paper targets a variant of the stochastic multi-armed bandit problem called good arm identification (GAI). GAI is a pure-exploration bandit problem with the goal to output as many good arms using as few samples as possible, where a good arm is defined as an arm whose expected reward is greater than a given threshold. In this work, we propose DGAI – a differentiable good arm identification algorithm to improve the sample complexity of the state-of-the-art HDoC algorithm in a data-driven fashion. We also showed that the DGAI can further boost the performance of a general multi-arm bandit (MAB) problem given a threshold as a prior knowledge to the arm set. Extensive experiments confirm that our algorithm outperform the baseline algorithms significantly in both synthetic and real world datasets for both GAI and MAB tasks.
arxiv情報
著者 | Yun-Da Tsai,Tzu-Hsien Tsai,Shou-De Lin |
発行日 | 2023-03-13 14:28:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google