要約
マルチエージェント強化学習の導入を成功させるには、多くの場合、エージェントがその行動を適応させる必要があります。
この研究では、限られた微調整で新しいタスクを解決するためにエージェントのチームがポリシーを適応させる必要があるチームワーク適応の問題について説明します。
エージェントが現在のタスクに動作を適応させるためには、タスクを識別して区別できる必要があるという直観に動機付けられ、マルチエージェント タスク エンベディング (MATE) を学習することを提案します。
これらのタスクの埋め込みは、タスクを一意に識別する遷移関数と報酬関数の再構築に最適化されたエンコーダー/デコーダー アーキテクチャを使用してトレーニングされます。
タスクの埋め込みが提供された場合、エージェントのチームが新しいタスクに適応できることを示します。
我々は、タスクのエンコーディングに使用される情報が異なる独立型 MATE、集中型 MATE、および混合型 MATE の 3 つの MATE トレーニング パラダイムを提案します。
MATE によって学習された埋め込みがタスクを識別し、エージェントが新しいタスクに適応する際に活用する有用な情報を提供することを示します。
要約(オリジナル)
Successful deployment of multi-agent reinforcement learning often requires agents to adapt their behaviour. In this work, we discuss the problem of teamwork adaptation in which a team of agents needs to adapt their policies to solve novel tasks with limited fine-tuning. Motivated by the intuition that agents need to be able to identify and distinguish tasks in order to adapt their behaviour to the current task, we propose to learn multi-agent task embeddings (MATE). These task embeddings are trained using an encoder-decoder architecture optimised for reconstruction of the transition and reward functions which uniquely identify tasks. We show that a team of agents is able to adapt to novel tasks when provided with task embeddings. We propose three MATE training paradigms: independent MATE, centralised MATE, and mixed MATE which vary in the information used for the task encoding. We show that the embeddings learned by MATE identify tasks and provide useful information which agents leverage during adaptation to novel tasks.
arxiv情報
著者 | Lukas Schäfer,Filippos Christianos,Amos Storkey,Stefano V. Albrecht |
発行日 | 2023-11-20 17:40:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google