Optimal Scheduling in IoT-Driven Smart Isolated Microgrids Based on Deep Reinforcement Learning




– 本論文では、インターネット・オブ・シングス(IoT)駆動型孤立型マイクログリッド(MG)におけるディーゼル発電機(DG)のスケジューリング課題を、深層強化学習(DRL)によって調査する。
– 再生可能エネルギーが不確定な再生可能発電と負荷需要の下で完全に活用される。
– DRLエージェントは、過去の再生可能エネルギーおよび負荷データから最適方針を学習し、接続されたセンサによって収集された過去数時間の再生可能エネルギーおよび負荷データの観察に基づいてリアルタイムの決定を生成することができる。
– 目標は、供給需要バランスを確保しつつ運転コストを削減することである。
– 具体的には、スピニングリザーブを考慮した新しい有限時間部分観測マルコフ決定過程(POMDP)モデルが構想されている。
– 二進数DGスイッチング決定と連続エネルギーディスパッチ(ED)決定による離散連続ハイブリッドアクションスペースの課題を克服するために、有限時間動的プログラミング(DP)フレームワークに基づいて、2つの古典的なDRLアルゴリズム、つまり深いQネットワーク(DQN)と再帰決定論ポリシーグラデーション(RDPG)をシームレスに統合したHAFH-RDPGというDRLアルゴリズムが提案されている。
– 実世界のデータを用いた広範な実験を行い、提案されたアルゴリズムが、時間間隔および日々の電力変動に起因する不確実性に対処する能力を評価し、ベンチマークアルゴリズムの性能と比較した。


In this paper, we investigate the scheduling issue of diesel generators (DGs) in an Internet of Things (IoT)-Driven isolated microgrid (MG) by deep reinforcement learning (DRL). The renewable energy is fully exploited under the uncertainty of renewable generation and load demand. The DRL agent learns an optimal policy from history renewable and load data of previous days, where the policy can generate real-time decisions based on observations of past renewable and load data of previous hours collected by connected sensors. The goal is to reduce operating cost on the premise of ensuring supply-demand balance. In specific, a novel finite-horizon partial observable Markov decision process (POMDP) model is conceived considering the spinning reserve. In order to overcome the challenge of discrete-continuous hybrid action space due to the binary DG switching decision and continuous energy dispatch (ED) decision, a DRL algorithm, namely the hybrid action finite-horizon RDPG (HAFH-RDPG), is proposed. HAFH-RDPG seamlessly integrates two classical DRL algorithms, i.e., deep Q-network (DQN) and recurrent deterministic policy gradient (RDPG), based on a finite-horizon dynamic programming (DP) framework. Extensive experiments are performed with real-world data in an IoT-driven MG to evaluate the capability of the proposed algorithm in handling the uncertainty due to inter-hour and inter-day power fluctuation and to compare its performance with those of the benchmark algorithms.


著者 Jiaju Qi,Lei Lei,Kan Zheng,Simon X. Yang,Xuemin,Shen
発行日 2023-04-28 23:52:50+00:00
arxiv_id(pdf)

