要約
強化学習(RL)における転移学習は、外部知識を使用してトレーニングフェーズを強化する方法を導入することで、Deep-RLのトレーニング問題、つまり探索コスト、データの可用性、収束時間などを克服するために広く研究されてきました。
一般に、知識は専門エージェントから初心者に伝達されます。
これにより初心者エージェントの問題は解決されますが、このような転送を効果的に行うには、熟練エージェントのタスクをよく理解する必要があります。
代替案として、この論文では、マルチエージェント システムでエキスパートフリーのリアルタイム動的転移学習を可能にするアルゴリズムであるエキスパートフリー オンライン転移学習 (EF-OnTL) を提案します。
専任の専門家は存在せず、転送元エージェントと転送される知識は、エージェントのパフォーマンスと不確実性に基づいて各転送ステップで動的に選択されます。
不確実性の推定を改善するために、RL エージェントと環境の相互作用から不確実性を推定する RND の拡張である State Action Reward Next-State Random Network Distillation (sars-RND) も提案します。
私たちは、専門エージェントの有無にかかわらず、転送なしのシナリオとアドバイスベースのベースラインに対する EF-OnTL の有効性を、Cart-Pole、グリッドベースのマルチチーム Predator-Prey (mt-pp)、Half の 3 つのベンチマーク タスクで実証しました。
フィールドオフェンス (HFO)。
私たちの結果は、アドバイスベースのベースラインと比較した場合、EF-OnTL が外部入力やしきい値調整を必要とせず、全体的に同等のパフォーマンスを達成していることを示しています。
EF-OnTL は、処理されるタスクの複雑さに関連する改善により、非転送よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
Transfer learning in Reinforcement Learning (RL) has been widely studied to overcome training issues of Deep-RL, i.e., exploration cost, data availability and convergence time, by introducing a way to enhance training phase with external knowledge. Generally, knowledge is transferred from expert-agents to novices. While this fixes the issue for a novice agent, a good understanding of the task on expert agent is required for such transfer to be effective. As an alternative, in this paper we propose Expert-Free Online Transfer Learning (EF-OnTL), an algorithm that enables expert-free real-time dynamic transfer learning in multi-agent system. No dedicated expert exists, and transfer source agent and knowledge to be transferred are dynamically selected at each transfer step based on agents’ performance and uncertainty. To improve uncertainty estimation, we also propose State Action Reward Next-State Random Network Distillation (sars-RND), an extension of RND that estimates uncertainty from RL agent-environment interaction. We demonstrate EF-OnTL effectiveness against a no-transfer scenario and advice-based baselines, with and without expert agents, in three benchmark tasks: Cart-Pole, a grid-based Multi-Team Predator-Prey (mt-pp) and Half Field Offense (HFO). Our results show that EF-OnTL achieve overall comparable performance when compared against advice-based baselines while not requiring any external input nor threshold tuning. EF-OnTL outperforms no-transfer with an improvement related to the complexity of the task addressed.
arxiv情報
著者 | Alberto Castagna,Ivana Dusparic |
発行日 | 2023-06-29 09:24:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google