Online Network Source Optimization with Graph-Kernel MAB

要約

我々は、事前に未知のネットワークプロセスから得られる報酬が最大化されるように、大規模ネットワークにおける最適なソース配置をオンラインで学習するグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案します。
不確実性があるためオンライン学習が必要ですが、次元の呪いに悩まされています。
サンプル効率を達成するために、適応グラフ辞書モデルを使用してネットワーク プロセスを記述します。これにより、通常はまばらなスペクトル表現が得られます。
これにより、ネットワークの次元ではなくスペクトル表現モデルの次元に応じて学習率が調整される、データ効率の高い学習フレームワークが可能になります。
次に、アクション戦略を最適化しながらスペクトル表現のパラメータを学習するオンライン逐次決定戦略である Grab-UCB を提案します。
ネットワークパラメータに依存するパフォーマンス保証を導き出し、これが逐次決定戦略の学習曲線にさらに影響を与えます。 計算的に単純化された解法、目的関数を表すポリトープのエッジに沿って歩くアルゴリズムである Grab-arm-Light を導入します。

シミュレーション結果は、提案されたオンライン学習アルゴリズムが、通常学習フェーズとテストフェーズを分離するベースラインのオフライン手法よりも優れていることを示しています。
この結果は理論的発見を裏付けるものであり、累積後悔、サンプル効率、計算の複雑さの観点から、提案されたオンライン学習戦略の利点をさらに強調しています。

要約(オリジナル)

We propose Grab-UCB, a graph-kernel multi-arms bandit algorithm to learn online the optimal source placement in large scale networks, such that the reward obtained from a priori unknown network processes is maximized. The uncertainty calls for online learning, which suffers however from the curse of dimensionality. To achieve sample efficiency, we describe the network processes with an adaptive graph dictionary model, which typically leads to sparse spectral representations. This enables a data-efficient learning framework, whose learning rate scales with the dimension of the spectral representation model instead of the one of the network. We then propose Grab-UCB, an online sequential decision strategy that learns the parameters of the spectral representation while optimizing the action strategy. We derive the performance guarantees that depend on network parameters, which further influence the learning curve of the sequential decision strategy We introduce a computationally simplified solving method, Grab-arm-Light, an algorithm that walks along the edges of the polytope representing the objective function. Simulations results show that the proposed online learning algorithm outperforms baseline offline methods that typically separate the learning phase from the testing one. The results confirm the theoretical findings, and further highlight the gain of the proposed online learning strategy in terms of cumulative regret, sample efficiency and computational complexity.

arxiv情報

著者 Laura Toni,Pascal Frossard
発行日 2023-07-07 15:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク