要約
協力的なマルチエージェント制御のためのスケーラブルで効率的な強化学習アルゴリズムの開発は、過去数年間で大きな注目を集めてきました。
既存の文献は、エージェント間の経験的情報構造に基づいて、ローカルQ関数の不正確な分解を提案しています。
この論文では、エージェント間結合情報を活用し、各エージェントのローカルQ機能を正確に分解するための体系的なアプローチを提案します。
提案された分解に基づいて、おおよその最小の正方形のポリシー反復アルゴリズムを開発し、各エージェントのローカルQ機能を学習するための2つのアーキテクチャを特定します。
分解の最悪のサンプルの複雑さは集中型のケースと等しいことを確立し、エージェント間カップリングに必要かつ十分なグラフィカルな条件を導き出し、サンプル効率を向上させることができます。
数値の例で改善されたサンプル効率と計算効率を示します。
要約(オリジナル)
Developing scalable and efficient reinforcement learning algorithms for cooperative multi-agent control has received significant attention over the past years. Existing literature has proposed inexact decompositions of local Q-functions based on empirical information structures between the agents. In this paper, we exploit inter-agent coupling information and propose a systematic approach to exactly decompose the local Q-function of each agent. We develop an approximate least square policy iteration algorithm based on the proposed decomposition and identify two architectures to learn the local Q-function for each agent. We establish that the worst-case sample complexity of the decomposition is equal to the centralized case and derive necessary and sufficient graphical conditions on the inter-agent couplings to achieve better sample efficiency. We demonstrate the improved sample efficiency and computational efficiency on numerical examples.
arxiv情報
著者 | Shahbaz P Qadri Syed,He Bai |
発行日 | 2025-04-29 16:42:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google