要約
世界的な炭素排出量を削減し、気候変動を制限するには、建物のエネルギー消費を制御することがパズルの重要なピースです。
ここでは、ユーザーの温熱的快適性を尊重しながら、住宅の建物の暖房システムのエネルギー消費を制限するためのデマンド レスポンス (DR) アルゴリズムの使用に特に焦点を当てます。
この分野では、強化学習 (RL) 手法が非常に効果的であることが示されています。
そのような RL 手法の 1 つはモンテカルロ木探索 (MCTS) であり、ボード ゲーム (囲碁、チェス) のプレイで目覚ましい成功を収めています。
MCTS の特別な利点は、従来の RL ソリューションではより複雑な技術が必要であるのに対し、意思決定ツリー構造により外因的制約を自然に統合できること (例: コスト/報酬関数にペナルティを追加することで間接的に、
または、制約違反のアクションを修正するバックアップ コントローラーを介して)。
このペーパーの主な目的は、建物管理への MCTS の採用を研究することです。これは、(私たちの知る限りでは) ほとんど調査されていないためです。
MCTS の特有の特性は、実行されたアクションに基づいてその後のシステム状態を予測できるシミュレーター コンポーネントを必要とすることです。
簡単なデータ駆動型のソリューションは、ブラックボックス ニューラル ネットワーク (NN) を使用することです。
ただし、Physics-informed Neural Network (PiNN) モデルを拡張してマルチタイムステップ予測を提供し、予測誤差の低減 ($-$32\% MAE) と MCTS パフォーマンスの向上 ($-
ブラックボックス NN と比較して、エネルギーコストは $4\%、温熱快適性は $+$7\%)。
2 番目の貢献は、制御パフォーマンスを維持しながらより低い計算コストを得るために、AlphaZero で適用されたアイデア (つまり、学習された事前関数と値関数、およびアクション選択ヒューリスティックの使用) を採用するためにバニラ MCTS バージョンを拡張することです。
要約(オリジナル)
To reduce global carbon emissions and limit climate change, controlling energy consumption in buildings is an important piece of the puzzle. Here, we specifically focus on using a demand response (DR) algorithm to limit the energy consumption of a residential building’s heating system while respecting user’s thermal comfort. In that domain, Reinforcement learning (RL) methods have been shown to be quite effective. One such RL method is Monte Carlo Tree Search (MCTS), which has achieved impressive success in playing board games (go, chess). A particular advantage of MCTS is that its decision tree structure naturally allows to integrate exogenous constraints (e.g., by trimming branches that violate them), while conventional RL solutions need more elaborate techniques (e.g., indirectly by adding penalties in the cost/reward function, or through a backup controller that corrects constraint-violating actions). The main aim of this paper is to study the adoption of MCTS for building control, since this (to the best of our knowledge) has remained largely unexplored. A specific property of MCTS is that it needs a simulator component that can predict subsequent system states, based on actions taken. A straightforward data-driven solution is to use black-box neural networks (NNs). We will however extend a Physics-informed Neural Network (PiNN) model to deliver multi-timestep predictions, and show the benefit it offers in terms of lower prediction errors ($-$32\% MAE) as well as better MCTS performance ($-$4\% energy cost, $+$7\% thermal comfort) compared to a black-box NN. A second contribution will be to extend a vanilla MCTS version to adopt the ideas applied in AlphaZero (i.e., using learned prior and value functions and an action selection heuristic) to obtain lower computational costs while maintaining control performance.
arxiv情報
著者 | Fabio Pavirani,Gargya Gokhale,Bert Claessens,Chris Develder |
発行日 | 2024-05-21 14:56:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google