要約
私たちは、リプシッツ平均報酬関数が時間の経過とともに変化する可能性があるノンパラメトリックな文脈バンディットを研究します。
まず、このあまり理解されていない設定における最小動的後悔率を、変化の数 $L$ と合計変動 $V$ の観点から確立し、両方ともコンテキスト空間上の分布のすべての変化を捉え、最先端の
この設定では手順は最適ではありません。
次に、この設定の適応性、つまり $L$ または $V$ の知識なしでミニマックス レートを達成するかどうかという問題に取り組みます。
非常に重要なことは、特定のコンテキスト $X_t$ で局所的に見たバンディット問題は、コンテキスト空間 $\cal X$ の他の部分での報酬の変化によって影響されるべきではないと仮定することです。
したがって、局所性をより適切に考慮し、$L$ や $V$ よりもかなり少ない変化をカウントする、変化の概念を提案します。これは、経験された重大な変化と呼ばれます。
さらに、非定常MABに関する最近の研究(Suk & Kpotufe、2022)と同様に、経験された重大な変化は、平均報酬の最も重要な変化、例えば、観察されたコンテキストに関連する重大なベストアームの変化のみをカウントします。
私たちの主な結果は、このより寛容な変化の概念が実際に適応できることを示すことです。
要約(オリジナル)
We study nonparametric contextual bandits where Lipschitz mean reward functions may change over time. We first establish the minimax dynamic regret rate in this less understood setting in terms of number of changes $L$ and total-variation $V$, both capturing all changes in distribution over context space, and argue that state-of-the-art procedures are suboptimal in this setting. Next, we tend to the question of an adaptivity for this setting, i.e. achieving the minimax rate without knowledge of $L$ or $V$. Quite importantly, we posit that the bandit problem, viewed locally at a given context $X_t$, should not be affected by reward changes in other parts of context space $\cal X$. We therefore propose a notion of change, which we term experienced significant shifts, that better accounts for locality, and thus counts considerably less changes than $L$ and $V$. Furthermore, similar to recent work on non-stationary MAB (Suk & Kpotufe, 2022), experienced significant shifts only count the most significant changes in mean rewards, e.g., severe best-arm changes relevant to observed contexts. Our main result is to show that this more tolerant notion of change can in fact be adapted to.
arxiv情報
著者 | Joe Suk,Samory Kpotufe |
発行日 | 2023-07-11 15:29:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google