Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning

要約

私たちは、強化学習 (RL) における探索を強化するために、高品質の固有報酬をインテリジェントかつ適応的に提供する AIRS: 自動固有報酬形成を紹介します。
より具体的には、AIRS はリアルタイムで推定されたタスクリターンに基づいて、事前定義されたセットからシェーピング関数を選択し、信頼できる探索インセンティブを提供し、偏った目的の問題を軽減します。
さらに、多様な本質的報酬アプローチの効率的かつ信頼性の高い実装を提供するため、本質的報酬ツールキットを開発します。
MiniGrid、Procgen、DeepMind Control Suite のさまざまなタスクで AIRS をテストします。
広範なシミュレーションにより、AIRS がベンチマーク スキームを上回り、シンプルなアーキテクチャで優れたパフォーマンスを達成できることが実証されました。

要約(オリジナル)

We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects shaping function from a predefined set based on the estimated task return in real-time, providing reliable exploration incentives and alleviating the biased objective problem. Moreover, we develop an intrinsic reward toolkit to provide efficient and reliable implementations of diverse intrinsic reward approaches. We test AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite. Extensive simulation demonstrates that AIRS can outperform the benchmarking schemes and achieve superior performance with simple architecture.

arxiv情報

著者 Mingqi Yuan,Bo Li,Xin Jin,Wenjun Zeng
発行日 2023-07-07 04:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク