要約
マルチエージェント マルチアーム バンディット問題は、オンライン レコメンデーション システムやワイヤレス ネットワーキングなど、多くの実際のアプリケーションで広く使用されているため、広く研究されてきました。
エージェントがグループの後悔を最小限に抑えながら、何らかの通信プロトコルを介して特定のグラフでコラボレーションし、各エージェントに異なる武器セットが与えられる設定を検討します。
この問題に関する以前の文献では、必要な 2 つの機能のうちの 1 つだけを別々に考慮していました。つまり、同じアーム セットを持つエージェントが一般的なグラフを介して通信するか、異なるアーム セットをもつエージェントが完全に接続されたグラフを介して通信します。
この作業では、必要なすべての機能を網羅する、より一般的な問題設定を紹介します。
この新しい設定では、最初に、UCB ポリシーと組み合わせた標準フラッディング プロトコルの厳密な後悔分析を提供します。
次に、フラッディングによって発生する高い通信コストの問題を軽減するために、フラッディング ウィズ アブソープション (FWA) と呼ばれる新しいプロトコルを提案します。
リグリーバウンドの理論的分析と、フラッディングに対する FWA の利点に関する直感を提供します。
最後に、FWA を使用すると、フラッディングと比較してパフォーマンスの低下が最小限に抑えられるにもかかわらず、通信コストが大幅に削減されることを経験的に検証します。
要約(オリジナル)
The multi-agent multi-armed bandit problem has been studied extensively due to its ubiquity in many real-life applications, such as online recommendation systems and wireless networking. We consider the setting where agents should minimize their group regret while collaborating over a given graph via some communication protocol and where each agent is given a different set of arms. Previous literature on this problem only considered one of the two desired features separately: agents with the same arm set communicate over a general graph, or agents with different arm sets communicate over a fully connected graph. In this work, we introduce a more general problem setting that encompasses all the desired features. For this novel setting, we first provide a rigorous regret analysis for the standard flooding protocol combined with the UCB policy. Then, to mitigate the issue of high communication costs incurred by flooding, we propose a new protocol called Flooding with Absorption (FWA). We provide a theoretical analysis of the regret bound and intuitions on the advantages of using FWA over flooding. Lastly, we verify empirically that using FWA leads to significantly lower communication costs despite minimal regret performance loss compared to flooding.
arxiv情報
著者 | Junghyun Lee,Laura Schmid,Se-Young Yun |
発行日 | 2023-03-09 17:44:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google