要約
タイトル: 多エネルギー管理システムにおける自己改善型のハード制約を備えた安全な強化学習
要約:
– 安全な強化学習(RL)は、多エネルギー管理システムの最適制御にとって有望な方向性である。これは、環境固有の制約関数自体が必要であり、完全なモデル(すなわち、プラント、乱れとノイズに関するモデル、およびプラントモデルに含まれない状態の予測モデル – 例えば需要、天気、価格の予測)は事前に必要としない。
– プロジェクト固有のアップフロントおよび継続的なエンジニアリング作業が削減され、より良いシステムダイナミクスの表現が学習され、モデルのバイアスが最小限に抑えられる(モデルベースの目的関数はない)。
– しかし、制約関数だけでも正確に提供することが常に容易ではなく、潜在的に安全でない動作を引き起こす可能性がある(例えば、エネルギーバランスの制約は、すべてのエネルギーの入出力を詳細に決定する必要がある)。
– この論文では、2つの新しい進歩点を提供する:(I)OptlayerとSafeFallback方法を組み合わせ、OptLayerPolicyと名付け、初期ユーティリティを増加させる高いサンプリング効率を維持する。(II)自己改善型のハード制約を導入して、より多くのデータが利用可能になるにつれて制約関数の正確性を増加させ、より良いポリシーを学習できるようにする。
– 両方の進歩点は、制約式設定をRL式設定から分離するため、新しい(おそらくより良い)RLアルゴリズムを差し替えることができる。
– シミュレートされた多エネルギーシステムのケーススタディにおいて、初期ユーティリティはOptLayerに対して92.4%(OptLayerPolicy)に増加し、トレーニング後のポリシーはOptLayerに対して104.9%(GrayOptLayerPolicy)に増加した。
– 最適化問題に代替関数を導入することは特別な注意を必要とするが、新しく提示されたGrayOptLayerPolicyメソッドが最も有利であると結論づけられた。
要約(オリジナル)
Safe reinforcement learning (RL) with hard constraint guarantees is a promising optimal control direction for multi-energy management systems. It only requires the environment-specific constraint functions itself a prior and not a complete model (i.e. plant, disturbance and noise models, and prediction models for states not included in the plant model – e.g. demand, weather, and price forecasts). The project-specific upfront and ongoing engineering efforts are therefore still reduced, better representations of the underlying system dynamics can still be learned and modeling bias is kept to a minimum (no model-based objective function). However, even the constraint functions alone are not always trivial to accurately provide in advance (e.g. an energy balance constraint requires the detailed determination of all energy inputs and outputs), leading to potentially unsafe behavior. In this paper, we present two novel advancements: (I) combining the Optlayer and SafeFallback method, named OptLayerPolicy, to increase the initial utility while keeping a high sample efficiency. (II) introducing self-improving hard constraints, to increase the accuracy of the constraint functions as more data becomes available so that better policies can be learned. Both advancements keep the constraint formulation decoupled from the RL formulation, so that new (presumably better) RL algorithms can act as drop-in replacements. We have shown that, in a simulated multi-energy system case study, the initial utility is increased to 92.4% (OptLayerPolicy) compared to 86.1% (OptLayer) and that the policy after training is increased to 104.9% (GreyOptLayerPolicy) compared to 103.4% (OptLayer) – all relative to a vanilla RL benchmark. While introducing surrogate functions into the optimization problem requires special attention, we do conclude that the newly presented GreyOptLayerPolicy method is the most advantageous.
arxiv情報
著者 | Glenn Ceusters,Muhammad Andy Putratama,Rüdiger Franke,Ann Nowé,Maarten Messagie |
発行日 | 2023-04-18 10:52:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI