Energy Management of Multi-mode Plug-in Hybrid Electric Vehicle using Multi-agent Deep Reinforcement Learning

要約

最近出現したマルチモード プラグイン ハイブリッド電気自動車 (PHEV) 技術は、脱炭素化に貢献する道筋の 1 つであり、そのエネルギー管理には多入力多出力 (MIMO) 制御が必要です。
現在、既存の方法は通常、MIMO 制御を単一出力 (MISO) 制御に分離し、局所的な最適なパフォーマンスしか達成できません。
マルチモード車両をグローバルに最適化するために、この論文では、マルチエージェント深層強化学習 (MADRL) に基づくマルチモード PHEV のエネルギー管理のための MIMO 制御方法を研究します。
関連性比率を導入することにより、深い決定論的ポリシー勾配 (DDPG) アルゴリズムを使用して、MADRL フレームワークの下で 2 つの学習エージェントが共同で作業できるようにするためのハンドシェイク戦略が提案されます。
DDPG エージェントの統一された設定は、学習パフォーマンスに影響を与える要因の感度分析を通じて得られます。
ハンドシェイク戦略の最適な動作モードは、関連性比率に関するパラメトリック研究を通じて達成されます。
提案されたエネルギー管理方法の利点は、ソフトウェアインザループ テスト プラットフォームで実証されています。
この研究の結果は、DDPG エージェントの学習率が学習パフォーマンスの最大の要因であることを示しています。
統一された DDPG 設定と適合率 0.2 を使用すると、提案された MADRL メソッドは、シングル エージェント メソッドと比較して最大 4% のエネルギーを節約できます。

要約(オリジナル)

The recently emerging multi-mode plug-in hybrid electric vehicle (PHEV) technology is one of the pathways making contributions to decarbonization, and its energy management requires multiple-input and multiple-output (MIMO) control. At the present, the existing methods usually decouple the MIMO control into single-output (MISO) control and can only achieve its local optimal performance. To optimize the multi-mode vehicle globally, this paper studies a MIMO control method for energy management of the multi-mode PHEV based on multi-agent deep reinforcement learning (MADRL). By introducing a relevance ratio, a hand-shaking strategy is proposed to enable two learning agents to work collaboratively under the MADRL framework using the deep deterministic policy gradient (DDPG) algorithm. Unified settings for the DDPG agents are obtained through a sensitivity analysis of the influencing factors to the learning performance. The optimal working mode for the hand-shaking strategy is attained through a parametric study on the relevance ratio. The advantage of the proposed energy management method is demonstrated on a software-in-the-loop testing platform. The result of the study indiates that learning rate of the DDPG agents is the greatest factor in learning performance. Using the unified DDPG settings and a relevance ratio of 0.2, the proposed MADRL method can save up to 4% energy compared to the single-agent method.

arxiv情報

著者 Min Hua,Cetengfei Zhang,Fanggang Zhang,Zhi Li,Xiaoli Yu,Hongming Xu,Quan Zhou
発行日 2023-03-16 21:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク