Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks

要約

生涯学習エージェントは、生涯にわたって複数のタスクを順番に学習することを目的としています。
これには、新しいタスクを学習するときに以前の知識を活用し、忘れないようにする能力が含まれます。
特定のタイプのパラメータ分離アプローチである変調マスクは、最近、教師あり学習と強化学習の両方で有望であることが示されています。
生涯学習アルゴリズムは主に単一エージェントのアプローチで研究されてきましたが、複数のエージェントが生涯学習の知識をどのように共有できるかについては疑問が残っています。
マスクの変調によって使用されるパラメータ分離メカニズムは、生涯学習者の分散型分散システムにおけるエージェント間の知識の交換に特に適していることを示します。
重要なアイデアは、特定のタスクの知識を特定のマスクに分離することで、エージェントがオンデマンドで特定の知識のみを転送できるようになり、その結果、堅牢で効果的な分散型生涯学習が実現するということです。
動的なエージェント数と接続を使用した、完全に分散された非同期シナリオを想定しています。
オンデマンド通信プロトコルにより、エージェントは各タスクに直面するときに、転送されポリシーに統合される特定のマスクをピアに問い合わせることができます。
実験によると、オンデマンドのマスク通信は分散型生涯強化学習を実装する効果的な方法であり、DD-PPO、IMPALA、PPO+EWC などの分散型 RL ベースラインに関して生涯学習の利点を提供することが示されています。
このシステムは接続切断に対して特に堅牢であり、知識交換による迅速な学習を示します。

要約(オリジナル)

Lifelong learning agents aim to learn multiple tasks sequentially over a lifetime. This involves the ability to exploit previous knowledge when learning new tasks and to avoid forgetting. Modulating masks, a specific type of parameter isolation approach, have recently shown promise in both supervised and reinforcement learning. While lifelong learning algorithms have been investigated mainly within a single-agent approach, a question remains on how multiple agents can share lifelong learning knowledge with each other. We show that the parameter isolation mechanism used by modulating masks is particularly suitable for exchanging knowledge among agents in a distributed and decentralized system of lifelong learners. The key idea is that the isolation of specific task knowledge to specific masks allows agents to transfer only specific knowledge on-demand, resulting in robust and effective distributed lifelong learning. We assume fully distributed and asynchronous scenarios with dynamic agent numbers and connectivity. An on-demand communication protocol ensures agents query their peers for specific masks to be transferred and integrated into their policies when facing each task. Experiments indicate that on-demand mask communication is an effective way to implement distributed lifelong reinforcement learning and provides a lifelong learning benefit with respect to distributed RL baselines such as DD-PPO, IMPALA, and PPO+EWC. The system is particularly robust to connection drops and demonstrates rapid learning due to knowledge exchange.

arxiv情報

著者 Saptarshi Nath,Christos Peridis,Eseoghene Ben-Iwhiwhu,Xinran Liu,Shirin Dora,Cong Liu,Soheil Kolouri,Andrea Soltoggio
発行日 2023-05-18 14:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.MA パーマリンク