Black box meta-learning intrinsic rewards for sparse-reward environments

要約

過去 10 年間にわたる深層強化学習の成功と進歩にもかかわらず、その広範な応用を妨げるいくつかの課題が残っています。
改善すべき基本的な側面としては、データ効率、汎化能力、報酬が希薄な環境で学習する能力などが挙げられますが、これらの環境では人間が設計した高密度の報酬が必要となることがよくあります。
メタ学習は、望ましい特性を満たすように学習アルゴリズムのコンポーネントを最適化することで、これらの問題に対処する有望なアプローチとして浮上しています。
さらに、別の分野の研究では、アルゴリズムの探索能力を強化するための固有の報酬の使用について広範に研究されています。
この研究では、メタ学習が RL エージェントによって受信されるトレーニング信号をどのように改善できるかを調査します。
焦点は、メタ勾配の使用に依存しないフレームワークの下での固有の報酬のメタ学習にあります。
このアプローチを分析し、外部報酬とメタ学習された利点関数の使用と比較します。
開発されたアルゴリズムは、パラメトリック変動とノンパラメトリック変動の両方を含む連続制御タスクの分布に基づいて評価され、評価タスクでアクセスできる報酬はまばらです。

要約(オリジナル)

Despite the successes and progress of deep reinforcement learning over the last decade, several challenges remain that hinder its broader application. Some fundamental aspects to improve include data efficiency, generalization capability, and ability to learn in sparse-reward environments, which often require human-designed dense rewards. Meta-learning has emerged as a promising approach to address these issues by optimizing components of the learning algorithm to meet desired characteristics. Additionally, a different line of work has extensively studied the use of intrinsic rewards to enhance the exploration capabilities of algorithms. This work investigates how meta-learning can improve the training signal received by RL agents. The focus is on meta-learning intrinsic rewards under a framework that doesn’t rely on the use of meta-gradients. We analyze and compare this approach to the use of extrinsic rewards and a meta-learned advantage function. The developed algorithms are evaluated on distributions of continuous control tasks with both parametric and non-parametric variations, and with only sparse rewards accessible for the evaluation tasks.

arxiv情報

著者 Octavio Pappalardo,Rodrigo Ramele,Juan Miguel Santos
発行日 2024-07-31 12:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク