Simple Opinion Dynamics for No-Regret Learning

要約

私たちは、分散型 GOSSIP モデルにおける協力的なマルチエージェント バンディット設定を研究します。各ラウンドで、各 $n$ エージェントは共通のセットからアクションを選択し、そのアクションに対応する報酬を観察し、その後、ランダムに選択された単一のネイバーと情報を交換します。
それは次のラウンドでの選択に影響を与える可能性があります。
私たちは、GOSSIP モデルの他のアルゴリズム タスクについてよく研究されている意見のダイナミクスに触発されて、この設定用のメモリレスで時間に依存しないプロトコルのファミリーを導入して分析します。
定常的な報酬設定の場合、これらの単純なプロトコルが両方の利点を生かした動作を示し、同時に $R(T)/T = \widetilde O(1/T)$ のような一定の累積後悔スケーリングを取得できることを初めて証明します。
また、$\widetilde O(\sqrt{n})$ ラウンド内の最高平均アクションについても合意に達しました。
これらの結果は、これらの分散プロトコルのグローバルな進化とゼロ和乗法重み更新プロセスのクラスとの間の新たな関係を示すことによって得られます。
このつながりを利用して、集団レベルの後悔やプロトコルのその他の特性を分析するための一般的なフレームワークを確立します。
最後に、私たちのプロトコルが敵対的な報酬に対して驚くほど堅牢であることも示します。この体制では、次の数に限り $R(T)/T = \widetilde O(1/\sqrt{T})$ のようなサブリニア スケーリングが得られます。
ラウンドの数は $n$ の関数として急激に増加しません。

要約(オリジナル)

We study a cooperative multi-agent bandit setting in the distributed GOSSIP model: in every round, each of $n$ agents chooses an action from a common set, observes the action’s corresponding reward, and subsequently exchanges information with a single randomly chosen neighbor, which may inform its choice in the next round. We introduce and analyze families of memoryless and time-independent protocols for this setting, inspired by opinion dynamics that are well-studied for other algorithmic tasks in the GOSSIP model. For stationary reward settings, we prove for the first time that these simple protocols exhibit best-of-both-worlds behavior, simultaneously obtaining constant cumulative regret scaling like $R(T)/T = \widetilde O(1/T)$, and also reaching consensus on the highest-mean action within $\widetilde O(\sqrt{n})$ rounds. We obtain these results by showing a new connection between the global evolution of these decentralized protocols and a class of zero-sum multiplicative weights update} processes. Using this connection, we establish a general framework for analyzing the population-level regret and other properties of our protocols. Finally, we show our protocols are also surprisingly robust to adversarial rewards, and in this regime we obtain sublinear regret scaling like $R(T)/T = \widetilde O(1/\sqrt{T})$ as long as the number of rounds does not grow too fast as a function of $n$.

arxiv情報

著者 John Lazarsfeld,Dan Alistarh
発行日 2024-07-08 15:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.DS, cs.LG パーマリンク