Collaborative Learning in Kernel-based Bandits for Distributed Users



– 分散されたクライアント間の共同学習について研究する。
– 各クライアントは、ローカルな目的とグローバルな目的の重み付け合計で構成される個人用目的関数を最大化することを目指している。
– 各クライアントはローカルな目的に対するランダムバンディットフィードバックに直接アクセスできるが、グローバルな目的については部分的な情報しか持っておらず、他のクライアントとの情報交換に依存している。
– バンディットフレームワークに基づいて、目的関数が再生核Hilbert空間に属するカーネルベースを採用する。
– サロゲートガウスプロセス(GP)モデルに基づくアルゴリズムを提案し、オーダーオプティマルの後悔パフォーマンスを確立する(ポリ対数因子まで)。
– GPモデルの疎な近似を用いることで、クライアント間の通信オーバーヘッドを削減できることも示している。


We study collaborative learning among distributed clients facilitated by a central server. Each client is interested in maximizing a personalized objective function that is a weighted sum of its local objective and a global objective. Each client has direct access to random bandit feedback on its local objective, but only has a partial view of the global objective and relies on information exchange with other clients for collaborative learning. We adopt the kernel-based bandit framework where the objective functions belong to a reproducing kernel Hilbert space. We propose an algorithm based on surrogate Gaussian process (GP) models and establish its order-optimal regret performance (up to polylogarithmic factors). We also show that the sparse approximations of the GP models can be employed to reduce the communication overhead across clients.


著者 Sudeep Salgia,Sattar Vakili,Qing Zhao
発行日 2023-04-17 15:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク