Can Learned Optimization Make Reinforcement Learning Less Difficult?

要約

強化学習 (RL) は現実世界での意思決定に大きな可能性を秘めていますが、多くの場合、特別な考慮が必要となる特有の困難を抱えています。
特に、非常に非定常である。
高度の可塑性損失が発生します。
また、局所最適化への早期収束を防ぎ、収益を最大化するために探索が必要です。
この論文では、学習された最適化がこれらの問題の解決に役立つかどうかを検討します。
私たちの手法である可塑性、探査、非定常性の学習型最適化 (OPEN) は、これらの問題に対して以前に提案された解決策によって入力特徴と出力構造が通知される更新ルールをメタ学習します。
私たちのパラメータ化は、探索に確率論を使用する機能など、さまざまな学習コンテキストでのメタ学習を可能にするのに十分な柔軟性があることを示します。
私たちの実験は、単一の小規模な環境セットでメタトレーニングされた場合、OPEN が従来使用されていたオプティマイザーを上回るか、同等のパフォーマンスを発揮することを示しています。
さらに、OPEN は、環境の分布およびさまざまなエージェント アーキテクチャにわたって強力な一般化を示します。

要約(オリジナル)

While reinforcement learning (RL) holds great potential for decision making in the real world, it suffers from a number of unique difficulties which often need specific consideration. In particular: it is highly non-stationary; suffers from high degrees of plasticity loss; and requires exploration to prevent premature convergence to local optima and maximize return. In this paper, we consider whether learned optimization can help overcome these problems. Our method, Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN), meta-learns an update rule whose input features and output structure are informed by previously proposed solutions to these difficulties. We show that our parameterization is flexible enough to enable meta-learning in diverse learning contexts, including the ability to use stochasticity for exploration. Our experiments demonstrate that when meta-trained on single and small sets of environments, OPEN outperforms or equals traditionally used optimizers. Furthermore, OPEN shows strong generalization across a distribution of environments and a range of agent architectures.

arxiv情報

著者 Alexander David Goldie,Chris Lu,Matthew Thomas Jackson,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2024-07-09 17:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク