要約
トンプソン サンプリングは、オンラインの逐次意思決定問題で最も人気のある学習アルゴリズムの 1 つであり、実世界の豊富なアプリケーションがあります。
ただし、現在のトンプソン サンプリング アルゴリズムは、受け取った報酬が破損していないという前提によって制限されており、敵対的報酬ポイズニングが存在する現実世界のアプリケーションでは当てはまらない可能性があります。
トンプソン サンプリングの信頼性を高めるために、敵対的報酬ポイズニングに対して堅牢なものにしたいと考えています。
主な課題は、エージェントは破損後の報酬しか観察できないため、真の報酬の実際の事後計算ができなくなることです。
この研究では、攻撃によって操作される可能性が低い擬似事後を計算することで、この問題を解決します。
私たちは、エージェントが攻撃者のバジェットを認識している場合と認識していない場合の両方の場合に、一般的な確率的および文脈依存的な線形バンディット設定に対して、トンプソン サンプリングに基づいた堅牢なアルゴリズムを提案します。
私たちは理論的に、私たちのアルゴリズムがあらゆる攻撃戦略の下で最適に近いリアクションを保証することを示しています。
要約(オリジナル)
Thompson sampling is one of the most popular learning algorithms for online sequential decision-making problems and has rich real-world applications. However, current Thompson sampling algorithms are limited by the assumption that the rewards received are uncorrupted, which may not be true in real-world applications where adversarial reward poisoning exists. To make Thompson sampling more reliable, we want to make it robust against adversarial reward poisoning. The main challenge is that one can no longer compute the actual posteriors for the true reward, as the agent can only observe the rewards after corruption. In this work, we solve this problem by computing pseudo-posteriors that are less likely to be manipulated by the attack. We propose robust algorithms based on Thompson sampling for the popular stochastic and contextual linear bandit settings in both cases where the agent is aware or unaware of the budget of the attacker. We theoretically show that our algorithms guarantee near-optimal regret under any attack strategy.
arxiv情報
著者 | Yinglun Xu,Zhiwei Wang,Gagandeep Singh |
発行日 | 2024-10-25 17:27:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google