要約
私たちは、エージェントが利益を最大化するために自分の武器を戦略的に登録または複製する場合の複製防止バンディット メカニズムの設計の問題を研究します。
我々は、自身の武器の平均報酬の事後実現を認識していないベイズエージェントを考慮する。これは、Shinらのベイズ拡張を研究する最初のものである。
(2022年)。
Shin らによる十分な情報に基づいた設定とは対照的に、この拡張は平衡を分析する際に重大な課題を提示します。
(2022) この問題では、各エージェントが 1 つのアームしか持たない場合に問題が単純化されます。
ベイジアン エージェントを使用すると、単一エージェント設定であっても、アルゴリズムの複製防止性の分析が複雑になります。
注目すべきことに、我々は、Shin らによって提案されたアルゴリズムが、
(2022) で定義された H-UCB は、どの探査パラメータに対しても複製防止ではなくなりました。
次に、単一エージェント設定でアルゴリズムが複製防止であるための十分かつ必要な条件を提供します。
これらの結果は、複数のバンディット インスタンスの予想される後悔を比較したいくつかの分析結果を中心としており、独立した興味深いものである可能性があります。
さらに、Exploration-then-commit (ETC) アルゴリズムはこれらの特性を満たしているのに対し、UCB は満たしておらず、実際に複製防止の失敗につながることを証明します。
この結果をマルチエージェント設定に拡張し、あらゆる問題インスタンスに対して複製防止アルゴリズムを提供します。
この証明は主に、単一薬剤の結果、ETC のいくつかの構造特性、およびリスタートラウンドの斬新な導入に依存しています。これにより、後悔を変えずに (多対数因数まで) 維持しながら分析が大幅に簡素化されます。
H-UCB のそれと一致するサブリニアリグレスの上限を証明することで、結果を最終的に確定します。
要約(オリジナル)
We study a problem of designing replication-proof bandit mechanisms when agents strategically register or replicate their own arms to maximize their payoff. We consider Bayesian agents who are unaware of ex-post realization of their own arms’ mean rewards, which is the first to study Bayesian extension of Shin et al. (2022). This extension presents significant challenges in analyzing equilibrium, in contrast to the fully-informed setting by Shin et al. (2022) under which the problem simply reduces to a case where each agent only has a single arm. With Bayesian agents, even in a single-agent setting, analyzing the replication-proofness of an algorithm becomes complicated. Remarkably, we first show that the algorithm proposed by Shin et al. (2022), defined H-UCB, is no longer replication-proof for any exploration parameters. Then, we provide sufficient and necessary conditions for an algorithm to be replication-proof in the single-agent setting. These results centers around several analytical results in comparing the expected regret of multiple bandit instances, which might be of independent interest. We further prove that exploration-then-commit (ETC) algorithm satisfies these properties, whereas UCB does not, which in fact leads to the failure of being replication-proof. We expand this result to multi-agent setting, and provide a replication-proof algorithm for any problem instance. The proof mainly relies on the single-agent result, as well as some structural properties of ETC and the novel introduction of a restarting round, which largely simplifies the analysis while maintaining the regret unchanged (up to polylogarithmic factor). We finalize our result by proving its sublinear regret upper bound, which matches that of H-UCB.
arxiv情報
著者 | Seyed Esmaeili,MohammadTaghi Hajiaghayi,Suho Shin |
発行日 | 2023-12-28 08:36:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google