要約
この研究は、アームの平均の合計が 1 である 2 アーム ベルヌーイ バンディット問題のバージョン (対称 2 アーム ベルヌーイ バンディット) に取り組んでいます。
これらの平均間のギャップがゼロになり、予測期間の数が無限大に近づく領域では、それぞれを線形熱方程式の解と関連付けることによって、この問題の minmax 最適リグレットと擬似リグレットの主要な次数項を取得します。
。
私たちの結果は、以前に知られていた結果を改善しています。
具体的には、ギャップの 3 つの異なるスケーリング方式でこれらの主次項を明示的に計算します。
さらに、任意の時間範囲に対して新しい非漸近限界を取得します。
要約(オリジナル)
This work addresses a version of the two-armed Bernoulli bandit problem where the sum of the means of the arms is one (the symmetric two-armed Bernoulli bandit). In a regime where the gap between these means goes to zero and the number of prediction periods approaches infinity, we obtain the leading order terms of the minmax optimal regret and pseudoregret for this problem by associating each of them with a solution of a linear heat equation. Our results improve upon the previously known results; specifically, we explicitly compute these leading order terms in three different scaling regimes for the gap. Additionally, we obtain new non-asymptotic bounds for any given time horizon.
arxiv情報
著者 | Vladimir A. Kobzar,Robert V. Kohn |
発行日 | 2023-07-10 17:06:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google