要約
オフライン マルチエージェント強化学習 (MARL) は、オンライン インタラクションが非現実的または危険なシナリオで価値があります。
MARL での独立学習は柔軟性と拡張性を提供しますが、オフライン設定で個々のエージェントにクレジットを正確に割り当てると、部分的な可観測性と緊急の動作により課題が生じます。
オンライン単位の割り当て方法をオフライン設定に直接移行すると、リアルタイムのフィードバックや複雑なエージェントのやり取りが存在しないため、最適な結果が得られません。
私たちのアプローチである MACCA は、生成プロセスをダイナミック ベイジアン ネットワークとして特徴づけ、環境変数、状態、アクション、報酬の間の関係を捉えます。
MACCA はオフライン データでこのモデルを推定し、個々の報酬の因果関係を分析することで各エージェントの貢献度を学習し、正確で解釈可能なクレジットの割り当てを保証します。
さらに、私たちのアプローチのモジュール性により、さまざまなオフライン MARL メソッドとシームレスに統合できます。
理論的には、オフライン データセットの設定の下で、根底にある因果構造とエージェントの個々の報酬を生成する機能が識別可能であることを証明し、これがモデリングの正確さの基礎を築きました。
実験的に、離散アクション設定と連続アクション設定を含む 2 つの環境で MACCA をテストしました。
結果は、MACCA が SOTA メソッドよりも優れており、そのバックボーンでのパフォーマンスが向上していることを示しています。
要約(オリジナル)
Offline Multi-agent Reinforcement Learning (MARL) is valuable in scenarios where online interaction is impractical or risky. While independent learning in MARL offers flexibility and scalability, accurately assigning credit to individual agents in offline settings poses challenges due to partial observability and emergent behavior. Directly transferring the online credit assignment method to offline settings results in suboptimal outcomes due to the absence of real-time feedback and intricate agent interactions. Our approach, MACCA, characterizing the generative process as a Dynamic Bayesian Network, captures relationships between environmental variables, states, actions, and rewards. Estimating this model on offline data, MACCA can learn each agent’s contribution by analyzing the causal relationship of their individual rewards, ensuring accurate and interpretable credit assignment. Additionally, the modularity of our approach allows it to seamlessly integrate with various offline MARL methods. Theoretically, we proved that under the setting of the offline dataset, the underlying causal structure and the function for generating the individual rewards of agents are identifiable, which laid the foundation for the correctness of our modeling. Experimentally, we tested MACCA in two environments, including discrete and continuous action settings. The results show that MACCA outperforms SOTA methods and improves performance upon their backbones.
arxiv情報
著者 | Ziyan Wang,Yali Du,Yudi Zhang,Meng Fang,Biwei Huang |
発行日 | 2023-12-06 17:59:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google