要約
タイトル:混合整数最適制御における強化学習による制御:ハイブリッド車両エネルギー管理についての事例研究
要約:
– 混合整数最適制御(MIOC)問題は、連続的および離散的な制御変数の同時出力を必要とする多くの最適制御問題である。しかし、解の空間の複雑性が原因で、このような問題を解くことは課題である。
– 数値的な方法(ブランチ&バウンド法など)は計算コストが高く、リアルタイム制御には適していない。
– この論文では、混合整数最適制御問題のための新しい連続-離散強化学習(CDRL)アルゴリズム、Twin Delayed Deep Deterministic Actor-Q(TD3AQ)を提案している。
– TD3AQは、アクター・評価者両方のメソッドの利点を組み合わせ、連続的および離散的なアクション空間を同時に扱うことができます。
– 提案されたアルゴリズムは、ハイブリッド電気自動車(HEV)エネルギー管理問題で評価され、連続的な変数であるエンジントルクと離散的な変数であるギア比をリアルタイム制御して、燃料効率を最大化し、運転制約を満たすことが必要です。
– 異なるドライブサイクルでのシミュレーション結果は、TD3AQが、Rainbow(MIOCのために連続的アクションを有限の離散値に離散化することで採用された最新の離散RLアルゴリズム)よりも優れており、動的プログラミング(DP)に比べて近似最適解を達成できることを示しています。
要約(オリジナル)
Many optimal control problems require the simultaneous output of continuous and discrete control variables. Such problems are usually formulated as mixed-integer optimal control (MIOC) problems, which are challenging to solve due to the complexity of the solution space. Numerical methods such as branch-and-bound are computationally expensive and unsuitable for real-time control. This paper proposes a novel continuous-discrete reinforcement learning (CDRL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC problems. TD3AQ combines the advantages of both actor-critic and Q-learning methods, and can handle the continuous and discrete action spaces simultaneously. The proposed algorithm is evaluated on a hybrid electric vehicle (HEV) energy management problem, where real-time control of the continuous variable engine torque and discrete variable gear ratio is essential to maximize fuel economy while satisfying driving constraints. Simulation results on different drive cycles show that TD3AQ can achieve near-optimal solutions compared to dynamic programming (DP) and outperforms the state-of-the-art discrete RL algorithm Rainbow, which is adopted for MIOC by discretizing continuous actions into a finite set of discrete values.
arxiv情報
著者 | Jinming Xu,Yuan Lin |
発行日 | 2023-05-02 14:42:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI