Reusable Options through Gradient-based Meta Learning


タイトル:Gradient-based Meta Learningを通じた再利用可能なオプション
– 階層的強化学習において、再利用可能な一時的抽象化が学習タスクを迅速に実行するために役立つ可能性があるが、その発見は依然として難しい。
– 最近、エンド・トゥ・エンドでオプション形式の一時的抽象化を学習するための複数のディープラーニングアプローチが提案されているが、これらの方法のいくつかの短所と、潜在的な負の影響について指摘する。
– この研究では、再利用可能なオプションを求める要件を定式化し、学習オプションの問題をGradient-based Meta Learning問題としてフレーム化する。
– これにより、上位決定者が異なるタスクに短時間で適応できるオプションを明示的に促進する目的関数を設定できる。
– 実験的に、我々の方法は、学習の加速化を促進する移転可能なコンポーネントを習得し、この設定のために開発された既存の先行研究手法よりも優れた性能を発揮することを示した。


Hierarchical methods in reinforcement learning have the potential to reduce the amount of decisions that the agent needs to perform when learning new tasks. However, finding reusable useful temporal abstractions that facilitate fast learning remains a challenging problem. Recently, several deep learning approaches were proposed to learn such temporal abstractions in the form of options in an end-to-end manner. In this work, we point out several shortcomings of these methods and discuss their potential negative consequences. Subsequently, we formulate the desiderata for reusable options and use these to frame the problem of learning options as a gradient-based meta-learning problem. This allows us to formulate an objective that explicitly incentivizes options which allow a higher-level decision maker to adjust in few steps to different tasks. Experimentally, we show that our method is able to learn transferable components which accelerate learning and performs better than existing prior methods developed for this setting. Additionally, we perform ablations to quantify the impact of using gradient-based meta-learning as well as other proposed changes.


著者 David Kuric,Herke van Hoof
発行日 2023-04-04 10:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG パーマリンク