ELDEN: Exploration via Local Dependencies

要約

状態空間が大きく報酬がまばらなタスクは、強化学習にとって長年の課題となっています。
これらのタスクでは、エージェントは報酬を見つけるまで状態空間を効率的に探索する必要があります。
この問題に対処するために、コミュニティは、エージェントに興味深い状態への訪問を促すボーナス信号である固有の報酬で報酬関数を強化することを提案しました。
この研究では、因子分解された状態空間と複雑な連鎖依存関係を持つ環境で興味深い状態を定義する新しい方法を提案します。エージェントのアクションによって 1 つのエンティティの値が変更され、それが順番に別のエンティティの値に影響を与える可能性があります。
私たちの洞察によると、これらの環境において探索にとって興味深い状態とは、エージェントやオブジェクトなどのエンティティが互いに何らかの影響を与えているかどうか (どのように影響しているかではなく) がエージェントにとって不確かな状態であるということです。
私たちは、エンティティ間の新しい相互作用の発見を促進する新しい固有の報酬である ELDEN (ローカル依存関係による探索) を紹介します。
ELDEN は、学習されたダイナミクスの偏導関数である新しいスキームを利用して、エンティティ間のローカルな依存関係を正確かつ計算効率的にモデル化します。
予測された依存関係の不確実性は、新しい相互作用への探索を促進するための本質的な報酬として使用されます。
2D グリッド ワールドから 3D ロボット タスクに至るまで、複雑な依存関係を持つ 4 つの異なるドメインで ELDEN のパフォーマンスを評価します。
すべてのドメインで、ELDEN はローカルの依存関係を正確に特定し、成功したポリシーを学習し、以前の最先端の探索方法を大幅に上回ります。

要約(オリジナル)

Tasks with large state space and sparse rewards present a longstanding challenge to reinforcement learning. In these tasks, an agent needs to explore the state space efficiently until it finds a reward. To deal with this problem, the community has proposed to augment the reward function with intrinsic reward, a bonus signal that encourages the agent to visit interesting states. In this work, we propose a new way of defining interesting states for environments with factored state spaces and complex chained dependencies, where an agent’s actions may change the value of one entity that, in order, may affect the value of another entity. Our insight is that, in these environments, interesting states for exploration are states where the agent is uncertain whether (as opposed to how) entities such as the agent or objects have some influence on each other. We present ELDEN, Exploration via Local DepENdencies, a novel intrinsic reward that encourages the discovery of new interactions between entities. ELDEN utilizes a novel scheme — the partial derivative of the learned dynamics to model the local dependencies between entities accurately and computationally efficiently. The uncertainty of the predicted dependencies is then used as an intrinsic reward to encourage exploration toward new interactions. We evaluate the performance of ELDEN on four different domains with complex dependencies, ranging from 2D grid worlds to 3D robotic tasks. In all domains, ELDEN correctly identifies local dependencies and learns successful policies, significantly outperforming previous state-of-the-art exploration methods.

arxiv情報

著者 Jiaheng Hu,Zizhao Wang,Peter Stone,Roberto Martin-Martin
発行日 2023-10-12 20:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク