Improving Intrinsic Exploration by Creating Stationary Objectives

要約

強化学習の探索ボーナスは、カスタムの固有目標を定義することにより、長期的な探索をガイドします。
カウントベースの方法では、州訪問の頻度を使用して探索ボーナスを導き出します。
この論文では、カウントベースの方法から導出された固有の報酬関数は非定常であるため、エージェントの最適化が困難な目標を引き起こすことを特定しました。
私たちの研究の主な貢献は、拡張された状態表現を通じて元の非定常報酬を定常報酬に変換することにあります。
この目的のために、Stationary Objectives For Exploration (SOFE) フレームワークを導入します。
SOFE では、さまざまな探索ボーナスに対する十分な統計を特定し、ディープ ネットワークへの入力として使用するこれらの統計の効率的なエンコードを見つける必要があります。
SOFE は、状態空間を拡張しながら、エージェントの目的の最適化を簡素化する約束を保持する状態拡張の提案に基づいています。
私たちの実験では、SOFE が、報酬が少ないタスク、ピクセルベースの観察、3D ナビゲーション、手続き的に生成された環境など、困難な探索問題におけるエージェントのパフォーマンスを向上させることを示しています。

要約(オリジナル)

Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Count-based methods use the frequency of state visits to derive an exploration bonus. In this paper, we identify that any intrinsic reward function derived from count-based methods is non-stationary and hence induces a difficult objective to optimize for the agent. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent’s objective. Our experiments show that SOFE improves the agents’ performance in challenging exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.

arxiv情報

著者 Roger Creus Castanyer,Joshua Romoff,Glen Berseth
発行日 2023-10-27 13:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク