Adversarial Attacks on Online Learning to Rank with Click Feedback

要約

オンライン学習によるランク付け (OLTR) は、学習エージェントが項目の順序付きリストを選択し、ユーザーのクリックを通じてフィードバックを受け取る逐次的な意思決定問題です。
OLTR アルゴリズムに対する潜在的な攻撃は、現実世界のアプリケーションに重大な損失を引き起こす可能性がありますが、OLTR に対する敵対的攻撃についてはほとんど知られていません。
この論文では、OLTR の複数の亜種に対する攻撃戦略を研究します。
私たちの最初の結果は、バイナリ フィードバックを使用した古典的な確率的バンディットに対する UCB アルゴリズムに対する攻撃戦略を提供します。これにより、以前の研究では処理できなかった有界および離散フィードバックによって引き起こされる重要な問題が解決されます。
この結果に基づいて、位置ベースおよびカスケード モデルで UCB ベースの OLTR アルゴリズムに対する攻撃アルゴリズムを設計します。
最後に、一般的なクリック モデルに基づく任意のアルゴリズムに対する一般的な攻撃戦略を提案します。
各攻撃アルゴリズムは学習エージェントを操作してターゲット攻撃項目を $T-o(T)$ 回選択し、累積コスト $o(T)$ が発生します。
合成データと実データの実験により、提案された攻撃アルゴリズムの有効性がさらに検証されます。

要約(オリジナル)

Online learning to rank (OLTR) is a sequential decision-making problem where a learning agent selects an ordered list of items and receives feedback through user clicks. Although potential attacks against OLTR algorithms may cause serious losses in real-world applications, little is known about adversarial attacks on OLTR. This paper studies attack strategies against multiple variants of OLTR. Our first result provides an attack strategy against the UCB algorithm on classical stochastic bandits with binary feedback, which solves the key issues caused by bounded and discrete feedback that previous works can not handle. Building on this result, we design attack algorithms against UCB-based OLTR algorithms in position-based and cascade models. Finally, we propose a general attack strategy against any algorithm under the general click model. Each attack algorithm manipulates the learning agent into choosing the target attack item $T-o(T)$ times, incurring a cumulative cost of $o(T)$. Experiments on synthetic and real data further validate the effectiveness of our proposed attack algorithms.

arxiv情報

著者 Jinhang Zuo,Zhiyao Zhang,Zhiyong Wang,Shuai Li,Mohammad Hajiesmaili,Adam Wierman
発行日 2023-05-26 16:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.IR, cs.LG パーマリンク