要約
モデルベース強化学習 (MBRL) は、環境がどのように機能するかをモデル化するワールド モデルを利用することで、サンプル効率の高い学習を実現します。通常、観察モデリングと報酬モデリングという 2 つのタスクのコンポーネントが含まれます。
この論文では、熱心な実証的調査を通じて、世界モデルにおいて各タスクが果たす役割をより深く理解し、観察モデリングまたは報酬モデリングのいずれかの支配を緩和することによって、サンプル効率の高いMBRLの見落とされている可能性を明らかにします。
私たちの重要な洞察は、陽的MBRLの一般的なアプローチは観測モデルを介して環境の豊富な詳細を復元しようとする一方で、環境の複雑さとモデルの能力が限られているため、それは困難であるということです。
一方、報酬モデルは、暗黙的な MBRL を支配し、コンパクトなタスク中心のダイナミクスの学習に優れていますが、より豊富な学習信号がなければサンプル効率の学習には不十分です。
これらの洞察と発見に動機付けられて、私たちは、タスクの調和、つまりワールドモデル学習における 2 つのタスク間の動的平衡を維持するために損失係数を自動的に調整する、シンプルかつ効果的なアプローチである HarmonyDream を提案します。
私たちの実験では、HarmonyDream を搭載した基本 MBRL メソッドにより、視覚的なロボット タスクの絶対パフォーマンスが 10% ~ 69% 向上し、Atari 100K ベンチマークで新しい最先端の結果が得られることが示されました。
コードは https://github.com/thuml/HarmonyDream で入手できます。
要約(オリジナル)
Model-based reinforcement learning (MBRL) holds the promise of sample-efficient learning by utilizing a world model, which models how the environment works and typically encompasses components for two tasks: observation modeling and reward modeling. In this paper, through a dedicated empirical investigation, we gain a deeper understanding of the role each task plays in world models and uncover the overlooked potential of sample-efficient MBRL by mitigating the domination of either observation or reward modeling. Our key insight is that while prevalent approaches of explicit MBRL attempt to restore abundant details of the environment via observation models, it is difficult due to the environment’s complexity and limited model capacity. On the other hand, reward models, while dominating implicit MBRL and adept at learning compact task-centric dynamics, are inadequate for sample-efficient learning without richer learning signals. Motivated by these insights and discoveries, we propose a simple yet effective approach, HarmonyDream, which automatically adjusts loss coefficients to maintain task harmonization, i.e. a dynamic equilibrium between the two tasks in world model learning. Our experiments show that the base MBRL method equipped with HarmonyDream gains 10%-69% absolute performance boosts on visual robotic tasks and sets a new state-of-the-art result on the Atari 100K benchmark. Code is available at https://github.com/thuml/HarmonyDream.
arxiv情報
| 著者 | Haoyu Ma,Jialong Wu,Ningya Feng,Chenjun Xiao,Dong Li,Jianye Hao,Jianmin Wang,Mingsheng Long |
| 発行日 | 2024-06-05 16:21:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google