要約
Dyna スタイルのオフポリシー モデルベース強化学習 (DMBRL) アルゴリズムは、合成状態遷移データを生成し、それによってオフポリシー RL アルゴリズムのサンプル効率を高めるための一連の手法です。
この論文では、固有受容観察を伴うさまざまなベンチマーク環境に DMBRL アルゴリズムを適用したときに観察される驚くべきパフォーマンスのギャップを特定し、調査します。
DMBRL アルゴリズムは OpenAI Gym では良好にパフォーマンスしますが、DeepMind Control Suite (DMC) では、これらの設定が同様のタスクと同一の物理バックエンドを提供しているにもかかわらず、パフォーマンスが大幅に低下する可能性があることを示します。
これらの設定で発生するいくつかの重要な問題に対処するために設計された最新の技術では、すべての環境で一貫した改善が得られるわけではありません。全体的な結果は、Dyna スタイルのアルゴリズムのバックボーンであるトレーニング プロセスに合成ロールアウトを追加すると、パフォーマンスが大幅に低下することを示しています。
ほとんどの DMC 環境で。
私たちの調査結果は、モデルベースの RL におけるいくつかの基本的な課題のより深い理解に貢献し、多くの最適化分野と同様に、RL の多様なベンチマークにわたるパフォーマンスを評価する際にフリーランチがないことを示しています。
要約(オリジナル)
Dyna-style off-policy model-based reinforcement learning (DMBRL) algorithms are a family of techniques for generating synthetic state transition data and thereby enhancing the sample efficiency of off-policy RL algorithms. This paper identifies and investigates a surprising performance gap observed when applying DMBRL algorithms across different benchmark environments with proprioceptive observations. We show that, while DMBRL algorithms perform well in OpenAI Gym, their performance can drop significantly in DeepMind Control Suite (DMC), even though these settings offer similar tasks and identical physics backends. Modern techniques designed to address several key issues that arise in these settings do not provide a consistent improvement across all environments, and overall our results show that adding synthetic rollouts to the training process — the backbone of Dyna-style algorithms — significantly degrades performance across most DMC environments. Our findings contribute to a deeper understanding of several fundamental challenges in model-based RL and show that, like many optimization fields, there is no free lunch when evaluating performance across diverse benchmarks in RL.
arxiv情報
著者 | Brett Barkley,David Fridovich-Keil |
発行日 | 2024-12-20 16:43:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google