Building a Subspace of Policies for Scalable Continual Learning

要約

新しい知識とスキルを継続的に習得する能力は、自律型エージェントにとって非常に重要です。
既存の方法は通常、多数の多様な動作を学習するのに苦労する固定サイズのモデル、またはタスクの数に応じてスケーリングが不十分な成長サイズのモデルのいずれかに基づいています。
この作業では、タスク シーケンスに応じて適応的に成長する方法を設計することにより、エージェントのサイズとパフォーマンスのバランスを改善することを目指しています。
ポリシーの継続的サブスペース (CSP) を導入します。これは、一連のタスクで強化学習エージェントをトレーニングするためのポリシーのサブスペースを段階的に構築する新しいアプローチです。
サブスペースの表現力の高さにより、CSP は多くの異なるタスクで適切に機能し、タスクの数に比例して成長することができます。
私たちの方法は、忘れることに悩まされず、新しいタスクへの前向きな移行を示します。
CSP は、Brax (移動) と Continual World (操作) という 2 つの困難なドメインの幅広いシナリオで、多くの一般的なベースラインよりも優れています。

要約(オリジナル)

The ability to continuously acquire new knowledge and skills is crucial for autonomous agents. Existing methods are typically based on either fixed-size models that struggle to learn a large number of diverse behaviors, or growing-size models that scale poorly with the number of tasks. In this work, we aim to strike a better balance between an agent’s size and performance by designing a method that grows adaptively depending on the task sequence. We introduce Continual Subspace of Policies (CSP), a new approach that incrementally builds a subspace of policies for training a reinforcement learning agent on a sequence of tasks. The subspace’s high expressivity allows CSP to perform well for many different tasks while growing sublinearly with the number of tasks. Our method does not suffer from forgetting and displays positive transfer to new tasks. CSP outperforms a number of popular baselines on a wide range of scenarios from two challenging domains, Brax (locomotion) and Continual World (manipulation).

arxiv情報

著者 Jean-Baptiste Gaya,Thang Doan,Lucas Caccia,Laure Soulier,Ludovic Denoyer,Roberta Raileanu
発行日 2023-02-28 17:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク