Improving Intrinsic Exploration by Creating Stationary Objectives

要約

強化学習における探索ボーナスは、固有の目的を定義することによって、ロングホライズン探索を導く。回数ベースのボーナス、擬似回数、状態エントロピーの最大化など、いくつかの探索目的は非定常であり、それゆえエージェントにとって最適化が困難である。この問題は一般に知られているが、通常は省略され、解決策は未解明のままである。我々の研究の重要な貢献は、拡張された状態表現を通して、元の非定常報酬を定常報酬に変換することにある。この目的のために、我々は定常探索目標(Stationary Objectives For Exploration: SOFE)フレームワークを導入する。SOFEでは、様々な探索ボーナスのために十分な統計量を特定し、ディープネットワークへの入力として使用するために、これらの統計量の効率的な符号化を見つける必要がある。SOFEは状態空間を拡張する状態拡張の提案に基づいているが、エージェントの目的の最適化を単純化することが期待できる。我々は、SOFEが、カウントベースのボーナス、擬似カウント、状態エントロピーの最大化を含む、いくつかの探索目的の性能を改善することを示す。さらに、SOFEは内在的目的の最適化を安定化させようとする先行手法を凌駕する。我々は、疎な報酬タスク、ピクセルベースの観測、3Dナビゲーション、手続き的に生成された環境など、困難な探索問題においてSOFEが有効であることを実証する。

要約(オリジナル)

Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Several exploration objectives like count-based bonuses, pseudo-counts, and state-entropy maximization are non-stationary and hence are difficult to optimize for the agent. While this issue is generally known, it is usually omitted and solutions remain under-explored. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent’s objective. We show that SOFE improves the performance of several exploration objectives, including count-based bonuses, pseudo-counts, and state-entropy maximization. Moreover, SOFE outperforms prior methods that attempt to stabilize the optimization of intrinsic objectives. We demonstrate the efficacy of SOFE in hard-exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.

arxiv情報

著者 Roger Creus Castanyer,Joshua Romoff,Glen Berseth
発行日 2023-12-04 17:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク