Can Learned Optimization Make Reinforcement Learning Less Difficult?

要約

Rehnection Learning(RL)は、現実の世界で意思決定の大きな可能性を秘めていますが、具体的な考慮が必要な多くのユニークな困難に苦しんでいます。
特に:それは非常に非定常です。
高度の可塑性の損失が苦しんでいます。
また、ローカルオプティマへの早期収束を防ぎ、リターンを最大化するために探索が必要です。
この論文では、学習した最適化がこれらの問題を克服するのに役立つかどうかを検討します。
私たちの方法は、可塑性、探索、および非定常性(オープン)の最適化を学び、メタラーンを使用して、これらの困難に対する以前に提案されたソリューションによって入力機能と出力構造が通知される更新ルールを学習します。
パラメーター化は、探索に確率性を使用する能力など、多様な学習コンテキストでメタ学習を可能にするほど柔軟であることを示します。
私たちの実験は、単一および小さな環境でメタトレーニングを行うと、オープンアウトパフォームまたは従来のオプティマイザーに等しいことを示しています。
さらに、Openは、さまざまな環境とエージェントアーキテクチャにわたって強力な一般化特性を示しています。

要約(オリジナル)

While reinforcement learning (RL) holds great potential for decision making in the real world, it suffers from a number of unique difficulties which often need specific consideration. In particular: it is highly non-stationary; suffers from high degrees of plasticity loss; and requires exploration to prevent premature convergence to local optima and maximize return. In this paper, we consider whether learned optimization can help overcome these problems. Our method, Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN), meta-learns an update rule whose input features and output structure are informed by previously proposed solutions to these difficulties. We show that our parameterization is flexible enough to enable meta-learning in diverse learning contexts, including the ability to use stochasticity for exploration. Our experiments demonstrate that when meta-trained on single and small sets of environments, OPEN outperforms or equals traditionally used optimizers. Furthermore, OPEN shows strong generalization characteristics across a range of environments and agent architectures.

arxiv情報

著者 Alexander David Goldie,Chris Lu,Matthew Thomas Jackson,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2025-04-15 15:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク