Goal-conditioned Offline Planning from Curious Exploration

要約

好奇心は、深層強化学習における強力な探索戦略としての地位を確立しています。
特に、将来期待される新規性を内発的動機づけとして活用すると、探索的な軌道と堅牢なダイナミクス モデルが効率的に生成されることが示されています。
私たちは、環境との相互作用を追加することなく、このような教師なし探索手法の成果物から目標条件付き行動を抽出するという課題を検討します。
価値関数とポリシーを抽出するための従来の目標条件付き強化学習アプローチは、この困難なオフライン環境では不十分であることがわかりました。
最適な目標条件付き値関数の形状を分析することにより、この問題を学習値の推定アーティファクトの特定のクラスに関連付けます。
それらの発生を軽減するために、学習された値ランドスケープに対するモデルベースの計画と、グラフベースの値集計スキームを組み合わせることを提案します。
この組み合わせによって、ローカルとグローバルの両方のアーティファクトがどのように修正され、さまざまなシミュレート環境全体でゼロショットでゴールに到達するパフォーマンスが大幅に向上するかを示します。

要約(オリジナル)

Curiosity has established itself as a powerful exploration strategy in deep reinforcement learning. Notably, leveraging expected future novelty as intrinsic motivation has been shown to efficiently generate exploratory trajectories, as well as a robust dynamics model. We consider the challenge of extracting goal-conditioned behavior from the products of such unsupervised exploration techniques, without any additional environment interaction. We find that conventional goal-conditioned reinforcement learning approaches for extracting a value function and policy fall short in this difficult offline setting. By analyzing the geometry of optimal goal-conditioned value functions, we relate this issue to a specific class of estimation artifacts in learned values. In order to mitigate their occurrence, we propose to combine model-based planning over learned value landscapes with a graph-based value aggregation scheme. We show how this combination can correct both local and global artifacts, obtaining significant improvements in zero-shot goal-reaching performance across diverse simulated environments.

arxiv情報

著者 Marco Bagatella,Georg Martius
発行日 2023-11-28 17:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク