Lifelong Reinforcement Learning with Modulating Masks

要約

生涯学習は、生物学的な学習と同様に、生涯にわたって継続的かつ漸進的に学習する AI システムを作成することを目的としています。
これまでの試みでは、壊滅的な忘却、タスク間の干渉、以前の知識を活用できないなどの問題が発生しました。
入力分布の変化を伴う複数の教師あり分類タスクの学習に多くの研究が焦点を当ててきましたが、生涯強化学習 (LRL) は状態分布と遷移分布、および報酬関数の変化に対処する必要があります。
最近分類用に開発された固定バックボーン ネットワークを備えた変調マスクは、このような広範囲のタスクの変動に対処するのに特に適しています。
この論文では、変調マスクをディープ LRL、特に PPO および IMPALA エージェントで動作するように適応させました。
離散 RL タスクと連続 RL タスクの両方で LRL ベースラインと比較すると、優れたパフォーマンスが示されます。
私たちは、新しいタスクを学習する際に以前の知識を活用するために、以前に学習したマスクの線形結合の使用をさらに調査しました。このアルゴリズムは、学習が高速化するだけでなく、報酬が非常に少ないために他の方法では最初から解決できなかったタスクを解決します。
この結果は、変調マスクを使用した RL が、生涯学習、ますます複雑になるタスクを学習するための知識の構成、および効率的かつ迅速な学習のための知識の再利用に対する有望なアプローチであることを示唆しています。

要約(オリジナル)

Lifelong learning aims to create AI systems that continuously and incrementally learn during a lifetime, similar to biological learning. Attempts so far have met problems, including catastrophic forgetting, interference among tasks, and the inability to exploit previous knowledge. While considerable research has focused on learning multiple supervised classification tasks that involve changes in the input distribution, lifelong reinforcement learning (LRL) must deal with variations in the state and transition distributions, and in the reward functions. Modulating masks with a fixed backbone network, recently developed for classification, are particularly suitable to deal with such a large spectrum of task variations. In this paper, we adapted modulating masks to work with deep LRL, specifically PPO and IMPALA agents. The comparison with LRL baselines in both discrete and continuous RL tasks shows superior performance. We further investigated the use of a linear combination of previously learned masks to exploit previous knowledge when learning new tasks: not only is learning faster, the algorithm solves tasks that we could not otherwise solve from scratch due to extremely sparse rewards. The results suggest that RL with modulating masks is a promising approach to lifelong learning, to the composition of knowledge to learn increasingly complex tasks, and to knowledge reuse for efficient and faster learning.

arxiv情報

著者 Eseoghene Ben-Iwhiwhu,Saptarshi Nath,Praveen K. Pilly,Soheil Kolouri,Andrea Soltoggio
発行日 2023-08-01 10:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク