要約
$N$ エージェントが、再現カーネル ヒルベルト空間にある未知の報酬関数を協力して最大化することを目指す分散カーネル バンディットについて考えます。
各エージェントは関数に順次クエリを実行して、クエリ ポイントでノイズのある観測値を取得します。
エージェントは、時間の経過とともに蓄積され、エージェント全体に集約される後悔を最小限に抑えることを目的として、中央サーバーを通じて情報を共有できます。
$N$ と $T$ の両方で線形未満の通信コストで最適なリグレス順序 (集中学習によって定義される) を達成する最初のアルゴリズムを開発します。
提案されたアルゴリズムの主な特徴は、ローカル エージェントでの均一な探索と中央サーバーとのランダム性の共有です。
GP モデルのスパース近似と連携することで、これら 2 つの主要なコンポーネントにより、通信速度が低下しても集中設定の学習速度を維持することが可能になります。
要約(オリジナル)
We consider distributed kernel bandits where $N$ agents aim to collaboratively maximize an unknown reward function that lies in a reproducing kernel Hilbert space. Each agent sequentially queries the function to obtain noisy observations at the query points. Agents can share information through a central server, with the objective of minimizing regret that is accumulating over time $T$ and aggregating over agents. We develop the first algorithm that achieves the optimal regret order (as defined by centralized learning) with a communication cost that is sublinear in both $N$ and $T$. The key features of the proposed algorithm are the uniform exploration at the local agents and shared randomness with the central server. Working together with the sparse approximation of the GP model, these two key components make it possible to preserve the learning rate of the centralized setting at a diminishing rate of communication.
arxiv情報
著者 | Nikola Pavlovic,Sudeep Salgia,Qing Zhao |
発行日 | 2024-02-20 17:49:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google