要約
私は、報酬が敵対的な腐敗の影響を受ける確率的マルチアーム バンディット問題を研究しています。
私は、UCB アルゴリズムを使用して学習者を操作して、$\widehat{O}(\sqrt{\log に相当する累積コストで最適ではないターゲット アームを $T – o(T)$ 回引き出すようにさせる新しい攻撃戦略を提案します。
T})$、$T$ はラウンド数です。
また、累積攻撃コストの最初の下限も証明します。
下限は $O(\log \log T)$ 係数までの上限と一致しており、提案された攻撃戦略が最適に近いことを示しています。
要約(オリジナル)
I study a stochastic multi-arm bandit problem where rewards are subject to adversarial corruption. I propose a novel attack strategy that manipulates a learner employing the UCB algorithm into pulling some non-optimal target arm $T – o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log T})$, where $T$ is the number of rounds. I also prove the first lower bound on the cumulative attack cost. The lower bound matches the upper bound up to $O(\log \log T)$ factors, showing the proposed attack strategy to be near optimal.
arxiv情報
著者 | Shiliang Zuo |
発行日 | 2023-08-24 15:51:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google