On First-Order Meta-Reinforcement Learning with Moreau Envelopes

要約

メタ強化学習 (MRL) は、新しい環境やタスクにすぐに適応できるエージェントをトレーニングするための有望なフレームワークです。
この研究では、ポリシー勾配定式化の下で MRL 問題を研究し、モロー包絡線サロゲート正則化器を使用して、個々のタスクの環境に合わせて調整可能なメタポリシーを共同学習する新しいアルゴリズムを提案します。
モロー包絡線メタ強化学習 (MEMRL) と呼ばれる私たちのアルゴリズムは、勾配ベースの最適化とモロー包絡線正則化の組み合わせを使用してポリシー パラメーターを効率的に更新することで、タスクの分散に適応できるメタポリシーを学習します。
モロー エンベロープは、ポリシー最適化問題の滑らかな近似を提供します。これにより、標準的な最適化手法を適用して、適切な定常点に収束することができます。
MEMRL アルゴリズムの詳細な分析を提供し、非凸ポリシー勾配最適化の一次定常点への準線形収束率を示します。
最後に、マルチタスク 2D ナビゲーション問題に対する MEMRL の有効性を示します。

要約(オリジナル)

Meta-Reinforcement Learning (MRL) is a promising framework for training agents that can quickly adapt to new environments and tasks. In this work, we study the MRL problem under the policy gradient formulation, where we propose a novel algorithm that uses Moreau envelope surrogate regularizers to jointly learn a meta-policy that is adjustable to the environment of each individual task. Our algorithm, called Moreau Envelope Meta-Reinforcement Learning (MEMRL), learns a meta-policy that can adapt to a distribution of tasks by efficiently updating the policy parameters using a combination of gradient-based optimization and Moreau Envelope regularization. Moreau Envelopes provide a smooth approximation of the policy optimization problem, which enables us to apply standard optimization techniques and converge to an appropriate stationary point. We provide a detailed analysis of the MEMRL algorithm, where we show a sublinear convergence rate to a first-order stationary point for non-convex policy gradient optimization. We finally show the effectiveness of MEMRL on a multi-task 2D-navigation problem.

arxiv情報

著者 Mohammad Taha Toghani,Sebastian Perez-Salazar,César A. Uribe
発行日 2023-05-20 15:46:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY, math.OC パーマリンク