要約
強化学習の進歩により、複雑な意思決定タスクを学習できる洗練されたモデルが開発されました。
ただし、ワールド モデルを意思決定トランスフォーマーと効率的に統合することは依然として課題です。
この論文では、Dreamer アルゴリズムの予測軌道を生成する機能と、Online Decision Transformer の適応学習の強みを組み合わせた新しいアプローチを紹介します。
私たちの方法論は、Dreamer が生成した軌道がトランスフォーマーの状況に応じた意思決定を強化し、双方向の強化ループを作成する並列トレーニングを可能にします。
私たちは、一連の困難なベンチマークに対するアプローチの有効性を経験的に実証し、既存の方法と比較してサンプル効率の顕著な改善と報酬の最大化を達成しました。
私たちの結果は、提案された統合フレームワークが学習を加速するだけでなく、多様で動的なシナリオにおける堅牢性を実証し、モデルベースの強化学習における重要な前進を示すことを示しています。
要約(オリジナル)
Advancements in reinforcement learning have led to the development of sophisticated models capable of learning complex decision-making tasks. However, efficiently integrating world models with decision transformers remains a challenge. In this paper, we introduce a novel approach that combines the Dreamer algorithm’s ability to generate anticipatory trajectories with the adaptive learning strengths of the Online Decision Transformer. Our methodology enables parallel training where Dreamer-produced trajectories enhance the contextual decision-making of the transformer, creating a bidirectional enhancement loop. We empirically demonstrate the efficacy of our approach on a suite of challenging benchmarks, achieving notable improvements in sample efficiency and reward maximization over existing methods. Our results indicate that the proposed integrated framework not only accelerates learning but also showcases robustness in diverse and dynamic scenarios, marking a significant step forward in model-based reinforcement learning.
arxiv情報
著者 | Eric Hanchen Jiang,Zhi Zhang,Dinghuai Zhang,Andrew Lizarraga,Chenheng Xu,Yasi Zhang,Siyan Zhao,Zhengjie Xu,Peiyu Yu,Yuer Tang,Deqian Kong,Ying Nian Wu |
発行日 | 2024-10-15 07:27:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google