要約
強化学習 (RL) と従来のコントローラーを組み合わせると、2 つの世界の中で最も優れたものを生み出すことができます。RL は複雑な非線形問題を解決でき、一方、事前の制御はより安全な探索を保証し、トレーニングを高速化します。
これまでの研究では、主に両方のコンポーネントを固定の重みでブレンドしており、RL エージェントのパフォーマンスがトレーニングの進行状況や状態空間内の領域全体に応じて変化することは無視されていました。
したがって、RL エージェントの現在の能力に基づいて重み付けを動的に調整する適応戦略を提唱します。
我々は、新しい適応ハイブリッド RL アルゴリズムである Contextualized Hybrid Ensemble Q-learning (CHEQ) を提案します。
CHEQ は 3 つの重要な要素を組み合わせています: (i) 適応重みをコンテキスト変数として扱う適応ハイブリッド RL 問題の時間不変定式化、(ii) クリティカル アンサンブルのパラメトリック不確実性に基づく重み適応メカニズム、および (iii)
データ効率の高い RL のためのアンサンブルベースのアクセラレーション。
カーレースタスクで CHEQ を評価すると、最先端のアダプティブハイブリッド RL 手法よりも大幅に強力なデータ効率、探査の安全性、未知のシナリオへの移行可能性が明らかになりました。
要約(オリジナル)
Combining Reinforcement Learning (RL) with a prior controller can yield the best out of two worlds: RL can solve complex nonlinear problems, while the control prior ensures safer exploration and speeds up training. Prior work largely blends both components with a fixed weight, neglecting that the RL agent’s performance varies with the training progress and across regions in the state space. Therefore, we advocate for an adaptive strategy that dynamically adjusts the weighting based on the RL agent’s current capabilities. We propose a new adaptive hybrid RL algorithm, Contextualized Hybrid Ensemble Q-learning (CHEQ). CHEQ combines three key ingredients: (i) a time-invariant formulation of the adaptive hybrid RL problem treating the adaptive weight as a context variable, (ii) a weight adaption mechanism based on the parametric uncertainty of a critic ensemble, and (iii) ensemble-based acceleration for data-efficient RL. Evaluating CHEQ on a car racing task reveals substantially stronger data efficiency, exploration safety, and transferability to unknown scenarios than state-of-the-art adaptive hybrid RL methods.
arxiv情報
著者 | Emma Cramer,Bernd Frauenknecht,Ramil Sabirov,Sebastian Trimpe |
発行日 | 2024-07-01 11:02:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google