要約
オフライン マルチエージェント強化学習 (MARL) は、リアルタイム インタラクションが非現実的、リスクが高い、またはコストがかかる環境で RL アルゴリズムを効果的に展開するために重要であるとますます認識されています。
オフライン設定では、過去のインタラクションの静的データセットから学習することで、困難を伴う可能性があるライブデータ収集を必要とせずに、堅牢で安全なポリシーの開発が可能になります。
この基本的な重要性に基づいて、拡散モデルを利用したオフライン MARL フレームワークの新しいアプローチである、Q 合計損失に基づくエピソード拡張である EAQ を紹介します。
EAQ は、エピソードでの全体的な収益を最大化するためのガイダンスとして、Q 合計関数を拡散モデルに直接統合し、個別のトレーニングの必要性を排除します。
私たちは主に協力シナリオに焦点を当てています。このシナリオでは、エージェントは共通の目標、つまり全体的な利益を最大化することに向けて共同で行動する必要があります。
その結果、協力的な方法でのエピソードの拡張により、元のデータセットと比較してオフライン MARL アルゴリズムが大幅に向上し、SMAC シミュレーターにおける中程度の行動ポリシーと低レベルの行動ポリシーで正規化されたリターンがそれぞれ +17.3% と +12.9% 向上することが実証されました。
要約(オリジナル)
Offline multi-agent reinforcement learning (MARL) is increasingly recognized as crucial for effectively deploying RL algorithms in environments where real-time interaction is impractical, risky, or costly. In the offline setting, learning from a static dataset of past interactions allows for the development of robust and safe policies without the need for live data collection, which can be fraught with challenges. Building on this foundational importance, we present EAQ, Episodes Augmentation guided by Q-total loss, a novel approach for offline MARL framework utilizing diffusion models. EAQ integrates the Q-total function directly into the diffusion model as a guidance to maximize the global returns in an episode, eliminating the need for separate training. Our focus primarily lies on cooperative scenarios, where agents are required to act collectively towards achieving a shared goal-essentially, maximizing global returns. Consequently, we demonstrate that our episodes augmentation in a collaborative manner significantly boosts offline MARL algorithm compared to the original dataset, improving the normalized return by +17.3% and +12.9% for medium and poor behavioral policies in SMAC simulator, respectively.
arxiv情報
著者 | Jihwan Oh,Sungnyun Kim,Gahee Kim,Sunghwan Kim,Se-Young Yun |
発行日 | 2024-08-23 14:17:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google