要約
既存の Federated Multi-armed Bandits (FMAB) 設計のほとんどは、クライアントがサーバーと連携するために指定された設計を実装するという前提に基づいています。
ただし、実際には、クライアントの既存のプロトコルを変更することができない場合があります。
この課題に対処するために、この研究では、個々の累積報酬を常に最大化するクライアントに焦点を当て、サーバーが暗黙的なローカル報酬調整を通じてクライアントをグローバルな最適化に導く「報酬ティーチング」という新しいアイデアを導入しました。
このフレームワークの下では、サーバーはバンディット学習とターゲット教育という 2 つの密接に結合したタスクに直面しており、その組み合わせは簡単ではなく、困難です。
ティーチング・アフター・ラーニング(TAL)と呼ばれる段階的アプローチは、まず、クライアントの探求を個別に奨励するか阻止するように設計されています。
TAL の一般的なパフォーマンス分析は、クライアントの戦略が特定の緩やかな要件を満たしている場合に確立されます。
バンディット アルゴリズムのウォーム スタート動作を分析するために開発された新しい技術的アプローチにより、UCB またはイプシロン貪欲戦略を実行しているクライアントとの TAL の特別な保証が得られます。
これらの結果は、TAL が対数調整コストのみを負担しながら対数リグレスを達成することを示しています。
自然な下限。
さらなる拡張として、TWL (Teaching- While-Learning) アルゴリズムは、TAL の非適応相分離を解消するための連続アーム除去のアイデアをもとに開発されました。
厳密な分析により、UCB1 を使用するクライアントに直面した場合、TWL はその適応型設計のおかげで、最適化されていないギャップへの依存性の点で TAL よりも優れていることが示されています。
実験結果は、提案されたアルゴリズムの有効性と一般性を示しています。
要約(オリジナル)
Most of the existing federated multi-armed bandits (FMAB) designs are based on the presumption that clients will implement the specified design to collaborate with the server. In reality, however, it may not be possible to modify the clients’ existing protocols. To address this challenge, this work focuses on clients who always maximize their individual cumulative rewards, and introduces a novel idea of “reward teaching”, where the server guides the clients towards global optimality through implicit local reward adjustments. Under this framework, the server faces two tightly coupled tasks of bandit learning and target teaching, whose combination is non-trivial and challenging. A phased approach, called Teaching-After-Learning (TAL), is first designed to encourage and discourage clients’ explorations separately. General performance analyses of TAL are established when the clients’ strategies satisfy certain mild requirements. With novel technical approaches developed to analyze the warm-start behaviors of bandit algorithms, particularized guarantees of TAL with clients running UCB or epsilon-greedy strategies are then obtained. These results demonstrate that TAL achieves logarithmic regrets while only incurring logarithmic adjustment costs, which is order-optimal w.r.t. a natural lower bound. As a further extension, the Teaching-While-Learning (TWL) algorithm is developed with the idea of successive arm elimination to break the non-adaptive phase separation in TAL. Rigorous analyses demonstrate that when facing clients with UCB1, TWL outperforms TAL in terms of the dependencies on sub-optimality gaps thanks to its adaptive design. Experimental results demonstrate the effectiveness and generality of the proposed algorithms.
arxiv情報
著者 | Chengshuai Shi,Wei Xiong,Cong Shen,Jing Yang |
発行日 | 2023-11-20 15:27:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google