Exploration and Anti-Exploration with Distributional Random Network Distillation

要約

探索は、エージェントが未知の環境で高い利益を達成するための深層強化学習において依然として重要な問題です。
一般的な探索ランダム ネットワーク蒸留 (RND) アルゴリズムは多くの環境で効果的であることが実証されていますが、多くの場合、ボーナスの割り当てにはより多くの識別力が必要です。
このペーパーでは、RND 内の「ボーナスの不一致」問題に焦点を当て、その主な制限を正確に示します。
この問題に対処するために、RND の派生である Distributional RND (DRND) を導入します。
DRND は、ランダム ネットワークの分布を抽出し、擬似カウントを暗黙的に組み込んでボーナス割り当ての精度を向上させることで、探索プロセスを強化します。
この改良により、エージェントはより広範な探索に取り組むことが奨励されます。
私たちの方法は、大幅な計算オーバーヘッドを導入することなく、不整合の問題を効果的に軽減します。
理論分析と実験結果の両方が、元の RND アルゴリズムに対する私たちのアプローチの優位性を示しています。
私たちの方法は、困難なオンライン探索シナリオに優れており、D4RL オフライン タスクにおける探索防止メカニズムとして効果的に機能します。
私たちのコードは https://github.com/yk7333/DRND で公開されています。

要約(オリジナル)

Exploration remains a critical issue in deep reinforcement learning for an agent to attain high returns in unknown environments. Although the prevailing exploration Random Network Distillation (RND) algorithm has been demonstrated to be effective in numerous environments, it often needs more discriminative power in bonus allocation. This paper highlights the ‘bonus inconsistency’ issue within RND, pinpointing its primary limitation. To address this issue, we introduce the Distributional RND (DRND), a derivative of the RND. DRND enhances the exploration process by distilling a distribution of random networks and implicitly incorporating pseudo counts to improve the precision of bonus allocation. This refinement encourages agents to engage in more extensive exploration. Our method effectively mitigates the inconsistency issue without introducing significant computational overhead. Both theoretical analysis and experimental results demonstrate the superiority of our approach over the original RND algorithm. Our method excels in challenging online exploration scenarios and effectively serves as an anti-exploration mechanism in D4RL offline tasks. Our code is publicly available at https://github.com/yk7333/DRND.

arxiv情報

著者 Kai Yang,Jian Tao,Jiafei Lyu,Xiu Li
発行日 2024-05-17 14:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク