Goals are Enough: Inducing AdHoc cooperation among unseen Multi-Agent systems in IMFs

要約

インテントベースの管理は、次世代モバイル ネットワークにおいて顧客の期待を達成する上で重要な役割を果たします。
従来の方法では、それぞれの期待を個別に処理する傾向があるため、効率的なリソース管理を実行できません。
マルチエージェント強化学習 (MARL) に基づく既存のアプローチは、ネットワーク スライス上で矛盾する期待がある場合に効率的な方法でリソースを割り当てます。
ただし、実際には、システムはスタンドアロンの MARL 定式化で対処するにははるかに複雑であることがよくあります。
多くの場合、意図履行には階層構造が存在し、複数の事前トレーニングを受けた利己的なエージェントがスーパーバイザーまたはコントローラー エージェントによってさらに調整される必要がある場合があります。
このようなエージェントはアドホックにシステムに到着する可能性があるため、他の利用可能なエージェントとともに調整する必要があります。
システム全体を毎回再トレーニングすることは、関連する時間とコストを考慮すると、多くの場合実行不可能です。
課題を考慮すると、事前トレーニングされたシステムのそのようなアドホックな調整は、一連の動的な契約 (目標またはボーナス) を通じて事前トレーニングされた RL/MARL エージェントを奨励し、達成に向けて団結したユニットとして行動するよう促すインテリジェント スーパーバイザ エージェントを通じて実現できる可能性があります。
世界的な期待。
一部のアプローチでは、ルールベースのスーパーバイザ エージェントを使用し、人間がコード化したルールに基づいて階層構成エージェントを順番に展開します。
現在の研究では、AI ベースのスーパーバイザー エージェントを活用して、事前トレーニングされたエージェントを並行して調整できるフレームワークを提案します。
このために、MARL エージェントに最適な目標を割り当て、特定の望ましい動作を示すようにインセンティブを与えるアドホック チーミング アプローチを使用することを提案します。
ネットワーク エミュレーターの結果は、提案されたアプローチが、ルールベースのアプローチと比較して、期待の実現がより速く改善され、環境の変化にも一般化できることを示しています。

要約(オリジナル)

Intent-based management will play a critical role in achieving customers’ expectations in the next-generation mobile networks. Traditional methods cannot perform efficient resource management since they tend to handle each expectation independently. Existing approaches, e.g., based on multi-agent reinforcement learning (MARL) allocate resources in an efficient fashion when there are conflicting expectations on the network slice. However, in reality, systems are often far more complex to be addressed by a standalone MARL formulation. Often there exists a hierarchical structure of intent fulfilment where multiple pre-trained, self-interested agents may need to be further orchestrated by a supervisor or controller agent. Such agents may arrive in the system adhoc, which then needs to be orchestrated along with other available agents. Retraining the whole system every time is often infeasible given the associated time and cost. Given the challenges, such adhoc coordination of pre-trained systems could be achieved through an intelligent supervisor agent which incentivizes pre-trained RL/MARL agents through sets of dynamic contracts (goals or bonuses) and encourages them to act as a cohesive unit towards fulfilling a global expectation. Some approaches use a rule-based supervisor agent and deploy the hierarchical constituent agents sequentially, based on human-coded rules. In the current work, we propose a framework whereby pre-trained agents can be orchestrated in parallel leveraging an AI-based supervisor agent. For this, we propose to use Adhoc-Teaming approaches which assign optimal goals to the MARL agents and incentivize them to exhibit certain desired behaviours. Results on the network emulator show that the proposed approach results in faster and improved fulfilment of expectations when compared to rule-based approaches and even generalizes to changes in environments.

arxiv情報

著者 Kaushik Dey,Satheesh K. Perepu,Abir Das
発行日 2023-10-26 14:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク