Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning

要約

強化学習 (RL) の転移学習は、外部知識を使用してトレーニング フェーズを強化する方法を導入することにより、Deep-RL のトレーニングの問題、つまり、探索コスト、データの可用性、収束時間などを克服するために広く研究されてきました。
一般に、知識はエキスパートエージェントから初心者に移されます。
これにより、初心者エージェントの問題は修正されますが、このような転送を有効にするには、エキスパート エージェントのタスクをよく理解する必要があります。
代わりに、この論文では、マルチエージェントシステムでエキスパートフリーのリアルタイム動的転移学習を可能にするアルゴリズムであるエキスパートフリーオンライン転移学習 (EF-OnTL) を提案します。
専用の専門家は存在せず、エージェントのパフォーマンスと不確実性に基づいて、各転送ステップで転送元エージェントと転送される知識が動的に選択されます。
不確実性の推定を改善するために、RL エージェントと環境の相互作用から不確実性を推定する RND の拡張である State Action Reward Next-State Random Network Distillation (sars-RND) も提案します。
転送なしのシナリオとアドバイスベースのベースラインに対する EF-OnTL の有効性を、エキスパート エージェントの有無にかかわらず、次の 3 つのベンチマーク タスクで実証します。
フィールド攻撃(HFO)。
私たちの結果は、アドバイスベースのベースラインと比較した場合、外部入力やしきい値の調整を必要とせずに、EF-OnTL が全体的に同等のパフォーマンスを達成することを示しています。
EF-OnTL は、対処するタスクの複雑さに関連する改善により、転送なしよりも優れています。

要約(オリジナル)

Transfer learning in Reinforcement Learning (RL) has been widely studied to overcome training issues of Deep-RL, i.e., exploration cost, data availability and convergence time, by introducing a way to enhance training phase with external knowledge. Generally, knowledge is transferred from expert-agents to novices. While this fixes the issue for a novice agent, a good understanding of the task on expert agent is required for such transfer to be effective. As an alternative, in this paper we propose Expert-Free Online Transfer Learning (EF-OnTL), an algorithm that enables expert-free real-time dynamic transfer learning in multi-agent system. No dedicated expert exists, and transfer source agent and knowledge to be transferred are dynamically selected at each transfer step based on agents’ performance and uncertainty. To improve uncertainty estimation, we also propose State Action Reward Next-State Random Network Distillation (sars-RND), an extension of RND that estimates uncertainty from RL agent-environment interaction. We demonstrate EF-OnTL effectiveness against a no-transfer scenario and advice-based baselines, with and without expert agents, in three benchmark tasks: Cart-Pole, a grid-based Multi-Team Predator-Prey (mt-pp) and Half Field Offense (HFO). Our results show that EF-OnTL achieve overall comparable performance when compared against advice-based baselines while not requiring any external input nor threshold tuning. EF-OnTL outperforms no-transfer with an improvement related to the complexity of the task addressed.

arxiv情報

著者 Alberto Castagna,Ivana Dusparic
発行日 2023-03-02 11:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク