Open-World Reinforcement Learning over Long Short-Term Imagination

要約

高次元のオープンワールドで視覚強化学習エージェントを訓練することは、重要な課題である。様々なモデルベースの手法は、インタラクティブな世界モデルを学習することでサンプルの効率を向上させてきたが、これらのエージェントは、通常、想像された経験の短い断片で訓練されるため、「近視眼的」になりがちである。我々は、オープンワールドの意思決定における主要な障害は、広範な状態空間にわたるオフポリシー探索の効率を改善することであると主張する。本論文では、LS-Imagineを紹介する。LS-Imagineは、限られた数の状態遷移ステップの中で想像の地平線を広げ、エージェントが有望な長期的フィードバックにつながる可能性のある行動を探索することを可能にする。我々のアプローチの基本は、長期的な短期世界モデルを構築することである。これを達成するために、我々はゴール条件付きの飛び飛びの状態遷移をシミュレートし、単一画像内の特定の領域を拡大することによって対応するアフォーダンス・マップを計算する。これにより、行動学習への直接的な長期的価値の統合が容易になる。本手法は、MineDojoにおいて、最新の手法と比較して大幅な改善を示している。

要約(オリジナル)

Training visual reinforcement learning agents in a high-dimensional open world presents significant challenges. While various model-based methods have improved sample efficiency by learning interactive world models, these agents tend to be ‘short-sighted’, as they are typically trained on short snippets of imagined experiences. We argue that the primary obstacle in open-world decision-making is improving the efficiency of off-policy exploration across an extensive state space. In this paper, we present LS-Imagine, which extends the imagination horizon within a limited number of state transition steps, enabling the agent to explore behaviors that potentially lead to promising long-term feedback. The foundation of our approach is to build a long short-term world model. To achieve this, we simulate goal-conditioned jumpy state transitions and compute corresponding affordance maps by zooming in on specific areas within single images. This facilitates the integration of direct long-term values into behavior learning. Our method demonstrates significant improvements over state-of-the-art techniques in MineDojo.

arxiv情報

著者 Jiajian Li,Qi Wang,Yunbo Wang,Xin Jin,Yang Li,Wenjun Zeng,Xiaokang Yang
発行日 2024-10-04 17:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク