A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC Orchestration

要約

マルチアクセス エッジ コンピューティング (MEC) は、コモディティ プラットフォーム上でオープン ラジオ アクセス ネットワーク (O-RAN) と組み合わせて実装することで、低コストの展開を提供し、サービスをエンドユーザーに近づけることができます。
この論文では、O-RAN の機能分割、割り当てられたリソース、および O-RAN/MEC サービスのホスティング場所を共同で制御する、ベイジアン深層強化学習 (RL) ベースのフレームワークを使用した共同 O-RAN/MEC オーケストレーションを提案します。
地理的に分散されたプラットフォーム全体、および各 O-RAN/MEC データ フローのルーティング。
目標は、時間とともに変化する可能性のある O-RAN/MEC の要求とリソースの可用性に適応しながら、長期的な全体的なネットワーク運用コストを最小限に抑え、MEC パフォーマンス基準を最大化することです。
このオーケストレーション問題はマルコフ決定プロセス (MDP) として定式化されます。
ただし、システムは同じリソースを共有し、異種の要求に対応する複数の BS で構成されており、それらのパラメータには自明ではない関係があります。
したがって、基礎となるシステムの正確なモデルを見つけることは非現実的であり、定式化された MDP は、多次元の離散アクションを伴う大きな状態空間でレンダリングされます。
このようなモデリングと次元の問題に対処するために、新しいモデルフリー RL エージェントがソリューション フレームワークに提案されています。
このエージェントは、大規模な状態空間に取り組む Double Deep Q ネットワーク (DDQN) から構築され、その後、複雑さが線形に増加する多次元の離散アクションに効果的に対処するアクション分解手法であるアクション分岐が組み込まれています。
さらに、トムソンサンプリングを使用したベイジアンフレームワークの下での効率的な探索活用戦略が、学習パフォーマンスを向上させ、その収束を促進するために提案されています。
トレース駆動のシミュレーションは、O-RAN 準拠のモデルを使用して実行されます。
結果は、私たちのアプローチがデータ効率が高く (つまり、より速く収束する)、非ベイジアン バージョンよりも返される報酬が 32\% 増加することを示しています。

要約(オリジナル)

Multi-access Edge Computing (MEC) can be implemented together with Open Radio Access Network (O-RAN) over commodity platforms to offer low-cost deployment and bring the services closer to end-users. In this paper, a joint O-RAN/MEC orchestration using a Bayesian deep reinforcement learning (RL)-based framework is proposed that jointly controls the O-RAN functional splits, the allocated resources and hosting locations of the O-RAN/MEC services across geo-distributed platforms, and the routing for each O-RAN/MEC data flow. The goal is to minimize the long-term overall network operation cost and maximize the MEC performance criterion while adapting possibly time-varying O-RAN/MEC demands and resource availability. This orchestration problem is formulated as Markov decision process (MDP). However, the system consists of multiple BSs that share the same resources and serve heterogeneous demands, where their parameters have non-trivial relations. Consequently, finding the exact model of the underlying system is impractical, and the formulated MDP renders in a large state space with multi-dimensional discrete action. To address such modeling and dimensionality issues, a novel model-free RL agent is proposed for our solution framework. The agent is built from Double Deep Q-network (DDQN) that tackles the large state space and is then incorporated with action branching, an action decomposition method that effectively addresses the multi-dimensional discrete action with linear increase complexity. Further, an efficient exploration-exploitation strategy under a Bayesian framework using Thomson sampling is proposed to improve the learning performance and expedite its convergence. Trace-driven simulations are performed using an O-RAN-compliant model. The results show that our approach is data-efficient (i.e., converges faster) and increases the returned reward by 32\% than its non-Bayesian version.

arxiv情報

著者 Fahri Wisnu Murti,Samad Ali,Matti Latva-aho
発行日 2023-12-26 18:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI パーマリンク