DHRL-FNMR: An Intelligent Multicast Routing Approach Based on Deep Hierarchical Reinforcement Learning in SDN

要約

Software-Defined Networking (SDN) マルチキャスト ルーティングにおける最適なマルチキャスト ツリー問題は、NP ハード組み合わせ最適化問題です。
深層強化学習に基づく既存の SDN インテリジェント ソリューション手法は、複雑なネットワーク リンク状態の変化に動的に適応できますが、これらの手法は、冗長なブランチ、大きなアクション スペース、エージェントの収束の遅さなどの問題に悩まされています。
この論文では、前述の問題を回避するために、深層強化学習に基づく SDN インテリジェント マルチキャスト ルーティング アルゴリズムを提案します。
まず、マルチキャスト ツリーの構築問題は、フォーク ノードの選択問題と、フォーク ノードから宛先ノードまでの最適なパスの構築という 2 つのサブ問題に分解されます。
第二に、SDN グローバル ネットワーク認識の情報特性に基づいて、マルチキャスト ツリー状態マトリックス、リンク帯域幅マトリックス、リンク遅延マトリックス、リンク パケット損失率マトリックス、およびサブゴール マトリックスが、組み込みおよびメタ コントローラーの状態空間として設計されます。
そこで、過剰な行動空間を緩和するために、上下に異なる行動空間を構築する手法を提案する。
メタコントローラーはネットワーク ノードを使用してアクション スペースを生成し、フォーク ノードを選択します。また、組み込みコントローラーは現在のノードの隣接するエッジをアクション スペースとして使用するため、マルチキャスト ツリーの構築において 4 つの異なるアクション選択戦略が実装されます。
インテリジェント エージェントがより迅速に最適なマルチキャスト ツリーを構築できるようにするために、複数の宛先ノードに対するシングル ステップ ノード アクションとマルチ ステップ アクションを区別する代替報酬戦略を開発しました。

要約(オリジナル)

The optimal multicast tree problem in the Software-Defined Networking (SDN) multicast routing is an NP-hard combinatorial optimization problem. Although existing SDN intelligent solution methods, which are based on deep reinforcement learning, can dynamically adapt to complex network link state changes, these methods are plagued by problems such as redundant branches, large action space, and slow agent convergence. In this paper, an SDN intelligent multicast routing algorithm based on deep hierarchical reinforcement learning is proposed to circumvent the aforementioned problems. First, the multicast tree construction problem is decomposed into two sub-problems: the fork node selection problem and the construction of the optimal path from the fork node to the destination node. Second, based on the information characteristics of SDN global network perception, the multicast tree state matrix, link bandwidth matrix, link delay matrix, link packet loss rate matrix, and sub-goal matrix are designed as the state space of intrinsic and meta controllers. Then, in order to mitigate the excessive action space, our approach constructs different action spaces at the upper and lower levels. The meta-controller generates an action space using network nodes to select the fork node, and the intrinsic controller uses the adjacent edges of the current node as its action space, thus implementing four different action selection strategies in the construction of the multicast tree. To facilitate the intelligent agent in constructing the optimal multicast tree with greater speed, we developed alternative reward strategies that distinguish between single-step node actions and multi-step actions towards multiple destination nodes.

arxiv情報

著者 Miao Ye,Chenwei Zhao,Xingsi Xue,Jinqiang Li,Hongwen Hu,Yejin Yang,Qiuxiang Jiang
発行日 2023-05-30 14:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI パーマリンク