要約
アクタークリティカル法による連続制御の解決には大きな成功が収められていますが、Q ラーニングなどのより単純なクリティカルのみの方法は、関連する高次元のアクション空間での応用が限られています。
ただし、ほとんどのアクタークリティカル手法は、安定化のためのヒューリスティック、計算要件、より広いハイパーパラメータ検索スペースなど、さらなる複雑性を犠牲にしています。
ディープ Q ラーニングの単純な変更により、これらの問題が大幅に軽減されることを示します。
バンバン アクションの離散化と値の分解を組み合わせ、単一エージェント制御を協調的なマルチエージェント強化学習 (MARL) として構成することにより、このシンプルな批評家のみのアプローチは、学習時に最先端の連続アクター批評家のパフォーマンスに匹敵します。
特徴またはピクセルから。
協調的な MARL からの古典的なバンディットの例を拡張して、分離された批評家が状態情報をどのように活用して共同最適化を調整するかについての直観を提供し、さまざまな連続制御タスクにわたって驚くほど強力なパフォーマンスを実証します。
要約(オリジナル)
While there has been substantial success for solving continuous control with actor-critic methods, simpler critic-only methods such as Q-learning find limited application in the associated high-dimensional action spaces. However, most actor-critic methods come at the cost of added complexity: heuristics for stabilisation, compute requirements and wider hyperparameter search spaces. We show that a simple modification of deep Q-learning largely alleviates these issues. By combining bang-bang action discretization with value decomposition, framing single-agent control as cooperative multi-agent reinforcement learning (MARL), this simple critic-only approach matches performance of state-of-the-art continuous actor-critic methods when learning from features or pixels. We extend classical bandit examples from cooperative MARL to provide intuition for how decoupled critics leverage state information to coordinate joint optimization, and demonstrate surprisingly strong performance across a variety of continuous control tasks.
arxiv情報
著者 | Tim Seyde,Peter Werner,Wilko Schwarting,Igor Gilitschenski,Martin Riedmiller,Daniela Rus,Markus Wulfmeier |
発行日 | 2023-09-25 22:49:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google