Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning

要約

クレジットを適切に割り当てることの難しさは、同時進行の時間と構造的な規模により、報酬がまばらな協力型 MARL では特に高まります。
自動サブゴール生成 (ASG) は、本質的に動機付けられた強化学習でサブゴールを利用することに着想を得た、実行可能な MARL アプローチとして最近登場しました。
ただし、事前知識なしで、まばらな報酬から複雑なタスク計画をエンドツーエンドで学習するには、間違いなく大量のトレーニング サンプルが必要です。
さらに、既存の ASG 手法の多様性を促進する性質により、サブ目標の「過剰表現」が発生し、実際のタスク報酬との関連性が限られた偽のサブ目標が多数生成され、アルゴリズムのサンプル効率が低下する可能性があります。
この問題に対処するために、もつれの解けた表現学習にヒントを得て、私たちは新しい「もつれの解けた」意思決定手法である Semantively Aligned task decomposition in MARL (SAMA) を提案します。これは、潜在的な目標を示唆できる思考連鎖を備えた事前学習済みの言語モデルを促します。
、適切な目標の分解とサブ目標の割り当て、および内省に基づく再計画を提供します。
さらに、SAMA には言語ベースの RL が組み込まれており、各エージェントのサブゴール条件付きポリシーをトレーニングします。
SAMA は、Overcooked と MiniRTS という 2 つの困難で報酬が少ないタスクでのパフォーマンスで証明されているように、最先端の ASG メソッドと比較してサンプル効率においてかなりの利点を示しています。

要約(オリジナル)

The difficulty of appropriately assigning credit is particularly heightened in cooperative MARL with sparse reward, due to the concurrent time and structural scales involved. Automatic subgoal generation (ASG) has recently emerged as a viable MARL approach inspired by utilizing subgoals in intrinsically motivated reinforcement learning. However, end-to-end learning of complex task planning from sparse rewards without prior knowledge, undoubtedly requires massive training samples. Moreover, the diversity-promoting nature of existing ASG methods can lead to the ‘over-representation’ of subgoals, generating numerous spurious subgoals of limited relevance to the actual task reward and thus decreasing the sample efficiency of the algorithm. To address this problem and inspired by the disentangled representation learning, we propose a novel ‘disentangled’ decision-making method, Semantically Aligned task decomposition in MARL (SAMA), that prompts pretrained language models with chain-of-thought that can suggest potential goals, provide suitable goal decomposition and subgoal allocation as well as self-reflection-based replanning. Additionally, SAMA incorporates language-grounded RL to train each agent’s subgoal-conditioned policy. SAMA demonstrates considerable advantages in sample efficiency compared to state-of-the-art ASG methods, as evidenced by its performance on two challenging sparse-reward tasks, Overcooked and MiniRTS.

arxiv情報

著者 Wenhao Li,Dan Qiao,Baoxiang Wang,Xiangfeng Wang,Bo Jin,Hongyuan Zha
発行日 2023-09-30 08:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA パーマリンク