Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning

要約

生涯強化学習 (RL) における主要な課題は、可塑性の喪失であり、以前の学習の進歩により、エージェントの新しいタスクへの適応が妨げられます。
正則化とリセットは役立ちますが、最初に正確なハイパーパラメータを選択し、環境に応じて調整する必要があります。
オンライン凸最適化の原則的な理論に基づいて、TRAC と呼ばれる生涯 RL のためのパラメータフリーのオプティマイザーを紹介します。これは、分布シフトに関する調整や事前知識を必要としません。
Procgen、Atari、および Gym Control 環境での広範な実験により、根底にある最適化問題が非凸かつ非定常であるにもかかわらず、TRAC が驚くほどうまく機能して可塑性の損失を軽減し、困難な分布シフトに迅速に適応することが示されました。

要約(オリジナル)

A key challenge in lifelong reinforcement learning (RL) is the loss of plasticity, where previous learning progress hinders an agent’s adaptation to new tasks. While regularization and resetting can help, they require precise hyperparameter selection at the outset and environment-dependent adjustments. Building on the principled theory of online convex optimization, we present a parameter-free optimizer for lifelong RL, called TRAC, which requires no tuning or prior knowledge about the distribution shifts. Extensive experiments on Procgen, Atari, and Gym Control environments show that TRAC works surprisingly well-mitigating loss of plasticity and rapidly adapting to challenging distribution shifts-despite the underlying optimization problem being nonconvex and nonstationary.

arxiv情報

著者 Aneesh Muppidi,Zhiyu Zhang,Heng Yang
発行日 2024-07-08 17:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク