Energy Management of Multi-mode Plug-in Hybrid Electric Vehicle using Multi-agent Deep Reinforcement Learning

要約

最近登場したマルチモード プラグイン ハイブリッド電気自動車 (PHEV) 技術は、脱炭素化に貢献する経路の 1 つであり、そのエネルギー管理には多入力多出力 (MIMO) 制御が必要です。
現在、既存の方法は通常、MIMO 制御を単一出力 (MISO) 制御に分離しており、局所的な最適なパフォーマンスしか達成できません。
マルチモード車両をグローバルに最適化するために、本論文では、マルチエージェント深層強化学習(MADRL)に基づくマルチモードPHEVのエネルギー管理のためのMIMO制御方法を研究する。
関連性比を導入することにより、深い決定性ポリシー勾配 (DDPG) アルゴリズムを使用して、MADRL フレームワークの下で 2 つの学習エージェントが協力して動作できるようにするハンドシェイク戦略が提案されます。
DDPG エージェントの統一設定は、学習パフォーマンスへの影響要因の感度分析を通じて取得されます。
ハンドシェイク戦略に最適な動作モードは、関連性比に関するパラメトリック研究を通じて得られます。
提案されたエネルギー管理方法の利点は、ソフトウェアインザループ テスト プラットフォームで実証されます。
研究の結果は、DDPG エージェントの学習率が学習パフォーマンスに最も大きな影響を与える要因であることを示しています。
統合された DDPG 設定と 0.2 の適合率を使用することで、提案された MADRL システムは、シングルエージェント学習システムと比較して最大 4% のエネルギーを節約でき、従来のルールベースのシステムと比較して最大 23.54% のエネルギーを節約できます。

要約(オリジナル)

The recently emerging multi-mode plug-in hybrid electric vehicle (PHEV) technology is one of the pathways making contributions to decarbonization, and its energy management requires multiple-input and multipleoutput (MIMO) control. At the present, the existing methods usually decouple the MIMO control into singleoutput (MISO) control and can only achieve its local optimal performance. To optimize the multi-mode vehicle globally, this paper studies a MIMO control method for energy management of the multi-mode PHEV based on multi-agent deep reinforcement learning (MADRL). By introducing a relevance ratio, a hand-shaking strategy is proposed to enable two learning agents to work collaboratively under the MADRL framework using the deep deterministic policy gradient (DDPG) algorithm. Unified settings for the DDPG agents are obtained through a sensitivity analysis of the influencing factors to the learning performance. The optimal working mode for the hand-shaking strategy is attained through a parametric study on the relevance ratio. The advantage of the proposed energy management method is demonstrated on a software-in-the-loop testing platform. The result of the study indicates that the learning rate of the DDPG agents is the greatest influencing factor for learning performance. Using the unified DDPG settings and a relevance ratio of 0.2, the proposed MADRL system can save up to 4% energy compared to the single-agent learning system and up to 23.54% energy compared to the conventional rule-based system.

arxiv情報

著者 Min Hua,Cetengfei Zhang,Fanggang Zhang,Zhi Li,Xiaoli Yu,Hongming Xu,Quan Zhou
発行日 2023-08-28 00:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク