Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning

要約

継続的な強化学習セットアップを検討します。学習エージェントは、以前に取得したスキルセットを保持しながら、新しいタスクに継続的に適応しなければなりません。
このような問題は、特にトポロジーまたはキネマティックの変更に起因するナビゲーションタスクで、自律的なロボット工学とビデオゲームのシミュレーションで優勢です。
これらの問題に対処するために、オフラインデータからナビゲーション設定で継続的に学習するために特別に設計された新しい階層的なフレームワークであるHISPOを紹介します。
私たちの方法は、既存の知識を維持しながら、新しいタスクに柔軟かつ効率的な適応を可能にするために、ニューラルネットワークの明確なポリシーサブスペースを活用しています。
慎重な実験的研究を通じて、古典的なムホコ迷路環境と複雑なビデオゲームのようなナビゲーションシミュレーションの両方での方法の有効性を実証し、特にメモリの使用と効率に関して、特に古典的な継続的な学習メトリックに関する競争力のあるパフォーマンスを紹介します。

要約(オリジナル)

We consider a Continual Reinforcement Learning setup, where a learning agent must continuously adapt to new tasks while retaining previously acquired skill sets, with a focus on the challenge of avoiding forgetting past gathered knowledge and ensuring scalability with the growing number of tasks. Such issues prevail in autonomous robotics and video game simulations, notably for navigation tasks prone to topological or kinematic changes. To address these issues, we introduce HiSPO, a novel hierarchical framework designed specifically for continual learning in navigation settings from offline data. Our method leverages distinct policy subspaces of neural networks to enable flexible and efficient adaptation to new tasks while preserving existing knowledge. We demonstrate, through a careful experimental study, the effectiveness of our method in both classical MuJoCo maze environments and complex video game-like navigation simulations, showcasing competitive performances and satisfying adaptability with respect to classical continual learning metrics, in particular regarding the memory usage and efficiency.

arxiv情報

著者 Anthony Kobanda,Rémy Portelas,Odalric-Ambrym Maillard,Ludovic Denoyer
発行日 2025-04-11 15:18:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク