要約
スキルは、順次意思決定のために確立された効果的な時間的抽象化であり、長期式タスクの効率的な階層学習を可能にし、移転性を通じてマルチタスク学習を促進します。
広範な研究にもかかわらず、特にマルチエージェントタスクでサブグループの調整パターンを自動的に抽出するために、研究ギャップはマルチエージェントシナリオに残っています。
この場合、2つの新しい自動エンコーダースキームを提案します:VO-MASD-3DとVO-MASD-HIERは、同時にサブグループおよび時間レベルの抽象化をキャプチャし、最初に前述の課題を解決するマルチエージェントスキルを形成します。
これらのスキームの重要なアルゴリズムコンポーネントは、タスク内のエージェント相互作用に基づいて潜在的なサブグループを自動的に検出できる動的グループ化関数です。
さらに、当社の方法はオフラインのマルチタスクデータに適用でき、検出されたサブグループスキルは、再訓練なしで関連するタスクを越えて転送できます。
StarCraftタスクの経験的評価は、私たちのアプローチが既存の階層的マルチエージェント補強学習(MARL)方法を大幅に上回ることを示しています。
さらに、私たちの方法を使用して発見されたスキルは、遅延とまばらな報酬信号でMARLシナリオの学習難易度を効果的に減らすことができます。
コードベースはhttps://github.com/lucascjysdl/vomasdで入手できます。
要約(オリジナル)
Skills are effective temporal abstractions established for sequential decision making, which enable efficient hierarchical learning for long-horizon tasks and facilitate multi-task learning through their transferability. Despite extensive research, research gaps remain in multi-agent scenarios, particularly for automatically extracting subgroup coordination patterns in a multi-agent task. In this case, we propose two novel auto-encoder schemes: VO-MASD-3D and VO-MASD-Hier, to simultaneously capture subgroup- and temporal-level abstractions and form multi-agent skills, which firstly solves the aforementioned challenge. An essential algorithm component of these schemes is a dynamic grouping function that can automatically detect latent subgroups based on agent interactions in a task. Further, our method can be applied to offline multi-task data, and the discovered subgroup skills can be transferred across relevant tasks without retraining. Empirical evaluations on StarCraft tasks indicate that our approach significantly outperforms existing hierarchical multi-agent reinforcement learning (MARL) methods. Moreover, skills discovered using our method can effectively reduce the learning difficulty in MARL scenarios with delayed and sparse reward signals. The codebase is available at https://github.com/LucasCJYSDL/VOMASD.
arxiv情報
著者 | Jiayu Chen,Tian Lan,Vaneet Aggarwal |
発行日 | 2025-04-30 16:48:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google