Federated Combinatorial Multi-Agent Multi-Armed Bandits

要約

このペーパーでは、バンディット フィードバックを使用したオンラインの組み合わせ最適化に合わせて調整されたフェデレーテッド ラーニング フレームワークを紹介します。
この設定では、エージェントはアームのサブセットを選択し、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズのある報酬を観察し、協力して特定の間隔で情報を共有できます。
私たちのフレームワークは、$\tilde{\mathcal{O}}(\frac{\psi}{\epsilon^\beta} の複雑さを持つオフライン復元力のあるシングルエージェント $(\alpha-\epsilon)$-近似アルゴリズムを変換します。
)$ (対数は省略されています)、一部の関数 $\psi$ と定数 $\beta$ について、$m$ の通信エージェントと $\ 以下の $\alpha$-regret を備えたオンライン マルチエージェント アルゴリズムに変換します。
チルダ{\mathcal{O}}(m^{-\frac{1}{3+\beta}} \psi^\frac{1}{3+\beta} T^\frac{2+\beta}{
3+\ベータ})$。
このアプローチは、$\epsilon$ 近似誤差を排除するだけでなく、時間軸 $T$ に関して線形未満の成長を保証し、通信エージェントの数の増加に伴う線形の高速化を実証します。
さらに、このアルゴリズムは特に通信効率が高く、$\tilde{\mathcal{O}}\left(\psi T^\frac{\beta}{\beta+1} として定量化される) で表される、サブリニア数の通信ラウンドのみを必要とします。
\右)$。
さらに、このフレームワークは、さまざまなオフライン アルゴリズムを使用したオンラインの確率的サブモジュラー最大化に首尾よく適用され、シングル エージェント設定とマルチ エージェント設定の両方で最初の結果が得られ、特化されたシングル エージェントの理論的保証が回復されました。
確率的データ要約問題に対するアプローチを経験的に検証し、単一エージェントのシナリオであっても、提案されたフレームワークの有効性を示します。

要約(オリジナル)

This paper introduces a federated learning framework tailored for online combinatorial optimization with bandit feedback. In this setting, agents select subsets of arms, observe noisy rewards for these subsets without accessing individual arm information, and can cooperate and share information at specific intervals. Our framework transforms any offline resilient single-agent $(\alpha-\epsilon)$-approximation algorithm, having a complexity of $\tilde{\mathcal{O}}(\frac{\psi}{\epsilon^\beta})$, where the logarithm is omitted, for some function $\psi$ and constant $\beta$, into an online multi-agent algorithm with $m$ communicating agents and an $\alpha$-regret of no more than $\tilde{\mathcal{O}}(m^{-\frac{1}{3+\beta}} \psi^\frac{1}{3+\beta} T^\frac{2+\beta}{3+\beta})$. This approach not only eliminates the $\epsilon$ approximation error but also ensures sublinear growth with respect to the time horizon $T$ and demonstrates a linear speedup with an increasing number of communicating agents. Additionally, the algorithm is notably communication-efficient, requiring only a sublinear number of communication rounds, quantified as $\tilde{\mathcal{O}}\left(\psi T^\frac{\beta}{\beta+1}\right)$. Furthermore, the framework has been successfully applied to online stochastic submodular maximization using various offline algorithms, yielding the first results for both single-agent and multi-agent settings and recovering specialized single-agent theoretical guarantees. We empirically validate our approach to a stochastic data summarization problem, illustrating the effectiveness of the proposed framework, even in single-agent scenarios.

arxiv情報

著者 Fares Fourati,Mohamed-Slim Alouini,Vaneet Aggarwal
発行日 2024-05-09 17:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DM, cs.LG, cs.MA, stat.ML パーマリンク