Curiosity-driven Exploration in Sparse-reward Multi-agent Reinforcement Learning

要約

深層強化学習法を適用する際の報酬の希薄性は、そのサンプル効率に悪影響を及ぼします。
報酬の希薄性に対処するための実行可能な解決策は、エージェントが環境を探索してサンプル空間を拡大するように奨励するために、報酬関数に内因性報酬を追加することを提唱する内発的動機を介して学習することです。
内発的動機付け法は、強化学習モデルにおけるデータ効率の高い学習を改善するために広く使用されていますが、いわゆる分離問題にも悩まされています。
この記事では、スパース報酬マルチエージェント強化学習における内因性好奇心モジュールの制限について説明し、内因性好奇心モジュールと Go-Explore フレームワークを組み合わせて分離の問題を軽減する I-Go-Explore と呼ばれる方法を提案します。

要約(オリジナル)

Sparsity of rewards while applying a deep reinforcement learning method negatively affects its sample-efficiency. A viable solution to deal with the sparsity of rewards is to learn via intrinsic motivation which advocates for adding an intrinsic reward to the reward function to encourage the agent to explore the environment and expand the sample space. Though intrinsic motivation methods are widely used to improve data-efficient learning in the reinforcement learning model, they also suffer from the so-called detachment problem. In this article, we discuss the limitations of intrinsic curiosity module in sparse-reward multi-agent reinforcement learning and propose a method called I-Go-Explore that combines the intrinsic curiosity module with the Go-Explore framework to alleviate the detachment problem.

arxiv情報

著者 Jiong Li,Pratik Gajane
発行日 2023-02-21 17:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク