要約
私たちは、ゴシップモデルの $n$ メモリ制約ノードの集団間での分散マルチアームバンディット設定を研究します。各ラウンドで、すべてのノードが $m$ アームの 1 つをローカルに採用し、アーム (敵対的に選択された) から引き出される報酬を観察します。
) の配布を行った後、ランダムにサンプリングされた近隣ノードと通信し、次のラウンドでのポリシーを決定するための情報を交換します。
このタスクの分散型ダイナミクスのいくつかのファミリーを導入して分析します。各ノードの決定は完全にローカルであり、最後に取得した報酬とサンプリングした近隣ノードの報酬のみに依存します。
我々は、これらの分散ダイナミクスのグローバルな進化と、特定のクラスの「ゼロサム」乗算重み更新アルゴリズムとの関係を示し、これらの自然プロトコルの集団レベルの後悔を分析するための一般的なフレームワークを開発します。
このフレームワークを使用して、定常報酬設定 (各アームの分布の平均が時間の経過とともに固定される場合) と、
敵対的報酬の設定 (手段は時間の経過とともに変化する可能性があります)。
さらに、報酬分布が確率的勾配オラクルから生成される場合、これらのプロトコルは単体上で凸関数を近似的に最適化できることを示します。
要約(オリジナル)
We study a distributed multi-armed bandit setting among a population of $n$ memory-constrained nodes in the gossip model: at each round, every node locally adopts one of $m$ arms, observes a reward drawn from the arm’s (adversarially chosen) distribution, and then communicates with a randomly sampled neighbor, exchanging information to determine its policy in the next round. We introduce and analyze several families of dynamics for this task that are decentralized: each node’s decision is entirely local and depends only on its most recently obtained reward and that of the neighbor it sampled. We show a connection between the global evolution of these decentralized dynamics with a certain class of ‘zero-sum’ multiplicative weights update algorithms, and we develop a general framework for analyzing the population-level regret of these natural protocols. Using this framework, we derive sublinear regret bounds under a wide range of parameter regimes (i.e., the size of the population and number of arms) for both the stationary reward setting (where the mean of each arm’s distribution is fixed over time) and the adversarial reward setting (where means can vary over time). Further, we show that these protocols can approximately optimize convex functions over the simplex when the reward distributions are generated from a stochastic gradient oracle.
arxiv情報
著者 | John Lazarsfeld,Dan Alistarh |
発行日 | 2023-10-19 15:19:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google