要約
深層強化学習 (DRL) はさまざまな領域で成功を収めていますが、サンプル効率が低く、収束が遅いため、制約のある環境に適用するのは依然として困難です。
最近の文献では、特に提案されたアクションの実現可能性を評価するモデルの使用を通じて、これらの問題を軽減するためにモデルの知識を組み込むことが検討されています。
ただし、継続的なアクション スペースがある環境で実現可能性モデルを DRL パイプラインに効率的に統合することは簡単ではありません。
実現可能性モデルを活用して学習プロセスを合理化する、アクション マッピングを利用した新しい DRL トレーニング戦略を提案します。
アクション マッピングにより、実行可能なアクションの学習をポリシーの最適化から切り離すことで、DRL エージェントは、削減された実行可能なアクション セットから最適なアクションを選択することに集中できます。
私たちは、アクション マッピングが、連続アクション スペースのある制約された環境、特に不完全な実現可能性モデルでのトレーニング パフォーマンスを大幅に向上させることを実験を通じて実証します。
要約(オリジナル)
Deep reinforcement learning (DRL) has had success across various domains, but applying it to environments with constraints remains challenging due to poor sample efficiency and slow convergence. Recent literature explored incorporating model knowledge to mitigate these problems, particularly through the use of models that assess the feasibility of proposed actions. However, integrating feasibility models efficiently into DRL pipelines in environments with continuous action spaces is non-trivial. We propose a novel DRL training strategy utilizing action mapping that leverages feasibility models to streamline the learning process. By decoupling the learning of feasible actions from policy optimization, action mapping allows DRL agents to focus on selecting the optimal action from a reduced feasible action set. We demonstrate through experiments that action mapping significantly improves training performance in constrained environments with continuous action spaces, especially with imperfect feasibility models.
arxiv情報
著者 | Mirco Theile,Lukas Dirnberger,Raphael Trumpp,Marco Caccamo,Alberto L. Sangiovanni-Vincentelli |
発行日 | 2024-12-05 16:42:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google