Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition

要約

マルチエージェント強化学習を介して複雑なタスクを完了するようにチームをトレーニングすることは、大規模な共同ポリシー空間でのポリシー検索や、相互に適応するエージェントによって引き起こされる非定常性などの課題により、困難な場合があります。
複雑なマルチエージェント タスクの効率的な学習を促進するために、専門家が提供するタスクをより単純なマルチエージェント サブタスクに分解するアプローチを提案します。
各サブタスクでは、チーム全体のサブセットがサブタスク固有のポリシーを取得するようにトレーニングされます。
その後、サブチームが結合されてターゲット タスクに転送され、より複雑なターゲット タスクを解決するために、サブチームのポリシーが集合的に微調整されます。
我々は、このようなアプローチにより、最初からトレーニングする場合と比較して、複雑なターゲット タスクを解決するために必要なタイムステップ数を大幅に削減できることを経験的に示しています。
ただし、サブタスク分解に基づくアプローチの単純な実装に関する 2 つの問題も特定して調査し、これらの問題に対処するための、既存のアクター批判アルゴリズムを強化するシンプルでスケーラブルな方法を提案します。
我々は、サブタスク分解アプローチを多様なマルチエージェントタスクに導入できるようにする、提案手法の経験的利点を実証します。

要約(オリジナル)

Training a team to complete a complex task via multi-agent reinforcement learning can be difficult due to challenges such as policy search in a large joint policy space, and non-stationarity caused by mutually adapting agents. To facilitate efficient learning of complex multi-agent tasks, we propose an approach which uses an expert-provided decomposition of a task into simpler multi-agent sub-tasks. In each sub-task, a subset of the entire team is trained to acquire sub-task-specific policies. The sub-teams are then merged and transferred to the target task, where their policies are collectively fine-tuned to solve the more complex target task. We show empirically that such approaches can greatly reduce the number of timesteps required to solve a complex target task relative to training from-scratch. However, we also identify and investigate two problems with naive implementations of approaches based on sub-task decomposition, and propose a simple and scalable method to address these problems which augments existing actor-critic algorithms. We demonstrate the empirical benefits of our proposed method, enabling sub-task decomposition approaches to be deployed in diverse multi-agent tasks.

arxiv情報

著者 Elliot Fosong,Arrasy Rahman,Ignacio Carlucho,Stefano V. Albrecht
発行日 2024-02-15 17:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク