Stochastic Bandits Robust to Adversarial Attacks

要約

この論文では、敵対的攻撃に対して堅牢な確率的マルチアーム バンディット アルゴリズムを調査します。このアルゴリズムでは、攻撃者はまず学習者のアクションを観察し、その後、その報酬の観察を変更できます。
実際の報酬と変更された報酬の差の合計の上限として定義される攻撃予算 $C$ の知識の有無にかかわらず、このモデルの 2 つのケースを研究します。
どちらの場合も、加法的または乗法的な $C$ 依存項を持つリグレス限界を持つ 2 種類のアルゴリズムを考案します。
既知の攻撃バジェットのケースでは、アルゴリズムが ${O}((K/\Delta)\log T + KC)$ および $\tilde{O}(\sqrt{KTC})$ のリグレス限界を達成していることを証明します。
それぞれ加法的 $C$ 項と乗法的 $C$ 項。$K$ はアームの数、$T$ は時間軸、$\Delta$ は最適なアームと 2 番目に優れたアームの期待される報酬の差です。
、$\tilde{O}$ は対数因数を非表示にします。
未知のケースについては、アルゴリズムが $\tilde{O}(\sqrt{KT} + KC^2)$ および $\tilde{O}(KC\sqrt{T})$ のリグレス限界を達成することを証明します。
それぞれ加法的 $C$ 項と乗法的 $C$ 項。
これらの上限の結果に加えて、境界の厳しさとアルゴリズムの最適性を示すいくつかの下限も提供します。
これらの結果は、攻撃と汚職モデルを伴う盗賊間の本質的な分離を明らかにしています [Lykouris et al., 2018]。

要約(オリジナル)

This paper investigates stochastic multi-armed bandit algorithms that are robust to adversarial attacks, where an attacker can first observe the learner’s action and {then} alter their reward observation. We study two cases of this model, with or without the knowledge of an attack budget $C$, defined as an upper bound of the summation of the difference between the actual and altered rewards. For both cases, we devise two types of algorithms with regret bounds having additive or multiplicative $C$ dependence terms. For the known attack budget case, we prove our algorithms achieve the regret bound of ${O}((K/\Delta)\log T + KC)$ and $\tilde{O}(\sqrt{KTC})$ for the additive and multiplicative $C$ terms, respectively, where $K$ is the number of arms, $T$ is the time horizon, $\Delta$ is the gap between the expected rewards of the optimal arm and the second-best arm, and $\tilde{O}$ hides the logarithmic factors. For the unknown case, we prove our algorithms achieve the regret bound of $\tilde{O}(\sqrt{KT} + KC^2)$ and $\tilde{O}(KC\sqrt{T})$ for the additive and multiplicative $C$ terms, respectively. In addition to these upper bound results, we provide several lower bounds showing the tightness of our bounds and the optimality of our algorithms. These results delineate an intrinsic separation between the bandits with attacks and corruption models [Lykouris et al., 2018].

arxiv情報

著者 Xuchuang Wang,Jinhang Zuo,Xutong Liu,John C. S. Lui,Mohammad Hajiesmaili
発行日 2024-08-16 17:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク