Optimal Energy Management of Plug-in Hybrid Vehicles Through Exploration-to-Exploitation Ratio Control in Ensemble Reinforcement Learning

要約

ハイブリッド電気自動車 (HEV) には、高い適応性と優位性を備えたインテリジェントなエネルギー管理システムの開発が必要かつ重要です。
この論文では、車両のエネルギー効率を向上させるために、学習オートマトン モジュール (LAM) に基づくアンサンブル学習ベースのスキームを提案しました。
2 つの探索対搾取比 (E2E) メソッドに従う 2 つの並列基本学習器を使用して最適解を生成し、最終的なアクションは 3 つのアンサンブル メソッドを使用して LAM によって共同で決定されます。
「逆関数ベースの減衰」(RBD) と「ステップベースの減衰」(SBD) は、強化学習の従来の指数関数的減衰 (EXD) 関数に基づいて E2E 比率軌跡を生成するためにそれぞれ提案されています。
さらに、3つのディケイ機能の性能の違いを考慮し、RBD、SBD、EXDを最適に組み合わせて究極のアクションを決定。
実験はソフトウェアインループ (SiL) およびハードウェアインザループ (HiL) で実行され、事前に定義された 4 つのサイクルでの省エネの潜在的なパフォーマンスを検証します。
SiL テストは、最適な組み合わせを使用したアンサンブル学習システムが、EXD 関数を使用した単一の Q 学習戦略よりも 1.09$\%$ 高い車両エネルギー効率を達成できることを示しています。
HiL テストでは、最適な組み合わせを備えたアンサンブル学習システムは、EXD 関数に基づく単一の Q 学習スキームよりも、事前定義された実世界の運転条件で 1.04$\%$ 以上節約できます。

要約(オリジナル)

Developing intelligent energy management systems with high adaptability and superiority is necessary and significant for Hybrid Electric Vehicles (HEVs). This paper proposed an ensemble learning-based scheme based on a learning automata module (LAM) to enhance vehicle energy efficiency. Two parallel base learners following two exploration-to-exploitation ratios (E2E) methods are used to generate an optimal solution, and the final action is jointly determined by the LAM using three ensemble methods. ‘Reciprocal function-based decay’ (RBD) and ‘Step-based decay’ (SBD) are proposed respectively to generate E2E ratio trajectories based on conventional Exponential decay (EXD) functions of reinforcement learning. Furthermore, considering the different performances of three decay functions, an optimal combination with the RBD, SBD, and EXD is employed to determine the ultimate action. Experiments are carried out in software-in-loop (SiL) and hardware-in-the-loop (HiL) to validate the potential performance of energy-saving under four predefined cycles. The SiL test demonstrates that the ensemble learning system with an optimal combination can achieve 1.09$\%$ higher vehicle energy efficiency than a single Q-learning strategy with the EXD function. In the HiL test, the ensemble learning system with an optimal combination can save more than 1.04$\%$ in the predefined real-world driving condition than the single Q-learning scheme based on the EXD function.

arxiv情報

著者 Bin Shuai,Min Hua,Yanfei Li,Shijin Shuai,Hongming Xu,Quan Zhou
発行日 2023-03-15 23:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク