Near Optimal Adversarial Attack on UCB Bandits

要約

私は、報酬が敵対的な腐敗の影響を受ける確率的マルチアーム バンディット問題を研究しています。
私は、UCB アルゴリズムを使用して学習者を操作して、$\widehat{O}(\sqrt{\log に相当する累積コストで最適ではないターゲット アームを $T – o(T)$ 回引き出すようにさせる新しい攻撃戦略を提案します。
T})$、$T$ はラウンド数です。
また、累積攻撃コストの最初の下限も証明します。
下限は $O(\log \log T)$ 係数までの上限と一致しており、提案された攻撃戦略が最適に近いことを示しています。

要約(オリジナル)

I study a stochastic multi-arm bandit problem where rewards are subject to adversarial corruption. I propose a novel attack strategy that manipulates a learner employing the UCB algorithm into pulling some non-optimal target arm $T – o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log T})$, where $T$ is the number of rounds. I also prove the first lower bound on the cumulative attack cost. The lower bound matches the upper bound up to $O(\log \log T)$ factors, showing the proposed attack strategy to be near optimal.

arxiv情報

著者 Shiliang Zuo
発行日 2023-08-24 15:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク