First- and Second-Order Bounds for Adversarial Linear Contextual Bandits

要約

タイトル: Adversarial Linear Contextual Banditsに対する1次および2次境界

要約:
– Adversarial Linear Contextual Bandit分野について考える。
– この分野では、各Kアームに関連する損失関数が制限なく時間とともに変化することを許容する。
– D次元の文脈は、固定された既知の分布から抽出されることが想定されている。
– T回にわたる最悪の期待損失は、$\tilde O(\sqrt{Kd T})$となることが知られている。
– 追加の仮定として、文脈の密度が対数凸であると仮定した場合、累積二乗ロスV_Tに関するオーダー$\tilde O(K\sqrt{d V_T})$の2次の制限を得ることができ、また最適方針の累積損失L_T^*に関するオーダー$\tilde O(K\sqrt{d L_T^*})$の1次の制限を得ることができる。
– V_TまたはL_T^*がTよりもかなり小さい場合、環境が比較的穏やかな場合には、これらは最悪の場合の損失を改善する。
– 我々の結果は、連続的指数重みアルゴリズムの切り捨てバージョンを使用して得られ、それはコンテキストのない線形バンディット設定に新しい接続を利用して解析される。

要約(オリジナル)

We consider the adversarial linear contextual bandit setting, which allows for the loss functions associated with each of $K$ arms to change over time without restriction. Assuming the $d$-dimensional contexts are drawn from a fixed known distribution, the worst-case expected regret over the course of $T$ rounds is known to scale as $\tilde O(\sqrt{Kd T})$. Under the additional assumption that the density of the contexts is log-concave, we obtain a second-order bound of order $\tilde O(K\sqrt{d V_T})$ in terms of the cumulative second moment of the learner’s losses $V_T$, and a closely related first-order bound of order $\tilde O(K\sqrt{d L_T^*})$ in terms of the cumulative loss of the best policy $L_T^*$. Since $V_T$ or $L_T^*$ may be significantly smaller than $T$, these improve over the worst-case regret whenever the environment is relatively benign. Our results are obtained using a truncated version of the continuous exponential weights algorithm over the probability simplex, which we analyse by exploiting a novel connection to the linear bandit setting without contexts.

arxiv情報

著者 Julia Olkhovskaya,Jack Mayo,Tim van Erven,Gergely Neu,Chen-Yu Wei
発行日 2023-05-01 14:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク