要約
本論文では、同じアームに同時にアクセスするエージェントに提供される衝突情報を除き、エージェント同士が通信しない場合の公平なマルチエージェント・マルチアーム・バンディット学習の問題を研究する。
私たちは、後悔 $O\left(N^3 \log N \log T \right)$ を備えたアルゴリズムを提供します (報酬には限界があり、限界は不明であると仮定します)。
これにより、順序 $O(\log T \log\log T)$ とエージェント数への指数関数的な依存性があった以前の結果が大幅に改善されます。
この結果は、分散オークション アルゴリズムを使用してサンプル最適マッチング、観察されたサンプルから長さが導出される新しいタイプの活用フェーズ、および新しい注文統計ベースのリグアロング分析を学習することによって得られます。
シミュレーション結果は、後悔の $\log T$ への依存性を示しています。
要約(オリジナル)
In this paper, we study the problem of fair multi-agent multi-arm bandit learning when agents do not communicate with each other, except collision information, provided to agents accessing the same arm simultaneously. We provide an algorithm with regret $O\left(N^3 \log N \log T \right)$ (assuming bounded rewards, with unknown bound). This significantly improves previous results which had regret of order $O(\log T \log\log T)$ and exponential dependence on the number of agents. The result is attained by using a distributed auction algorithm to learn the sample-optimal matching, a new type of exploitation phase whose length is derived from the observed samples, and a novel order-statistics-based regret analysis. Simulation results present the dependence of the regret on $\log T$.
arxiv情報
著者 | Amir Leshem |
発行日 | 2023-06-07 15:05:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google