Cooperative Multi-agent Bandits: Distributed Algorithms with Optimal Individual Regret and Constant Communication Costs

要約

最近、分散エージェントのセットが同じマルチアーム バンディット ゲームを協力してプレイする、協力的なマルチエージェント マルチアーム バンディットに関する広範な研究が行われています。
目標は、グループと個人の後悔を最適化し、エージェント間のコミュニケーションを少なくするバンディット アルゴリズムを開発することです。
以前の研究では、リーダーフォロワーアルゴリズムと完全分散アルゴリズムという 2 つのパラダイムを使用してこの問題に取り組みました。
両方のパラダイムにおける従来のアルゴリズムは、最適なグループリグアストレスを実現します。
リーダーとフォロワーのアルゴリズムは一定のコミュニケーションコストを達成しますが、最適な個人の後悔を達成することはできません。
最先端の完全分散アルゴリズムは、最適な個人の後悔を実現しますが、一定の通信コストを達成することはできません。
この論文は、シンプルだが効果的なコミュニケーション ポリシーを提示し、それを協力的な盗賊の学習アルゴリズムに統合します。
私たちのアルゴリズムは、最適な個人の後悔と一定のコミュニケーションコストという両方のパラダイムの長所を実現します。

要約(オリジナル)

Recently, there has been extensive study of cooperative multi-agent multi-armed bandits where a set of distributed agents cooperatively play the same multi-armed bandit game. The goal is to develop bandit algorithms with the optimal group and individual regrets and low communication between agents. The prior work tackled this problem using two paradigms: leader-follower and fully distributed algorithms. Prior algorithms in both paradigms achieve the optimal group regret. The leader-follower algorithms achieve constant communication costs but fail to achieve optimal individual regrets. The state-of-the-art fully distributed algorithms achieve optimal individual regrets but fail to achieve constant communication costs. This paper presents a simple yet effective communication policy and integrates it into a learning algorithm for cooperative bandits. Our algorithm achieves the best of both paradigms: optimal individual regret and constant communication costs.

arxiv情報

著者 Lin Yang,Xuchuang Wang,Mohammad Hajiesmaili,Lijun Zhang,John C. S. Lui,Don Towsley
発行日 2023-08-08 15:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク