Utilizing Domain Knowledge: Robust Machine Learning for Building Energy Prediction with Small, Inconsistent Datasets

要約

機械学習(ML)応用のための膨大なデータの要求は、経験的に支配的な分野では現在ボトルネックになっている。我々は、事前知識をデータ駆動型手法と組み合わせることで、そのデータ依存性を大幅に低減する手法を提案する。本研究では、知識を符号化したデータ駆動型手法としてのコンポーネントベース機械学習(CBML)を、エネルギー効率の良い建築工学の文脈で検討する。これは、建物の構造的知識の抽象化を、モデル構成における意味情報として符号化するものである。疎なデータ入力(サンプリング率1%~0.0125%)における知識符号化MLの有効性を理解するために、ケース実験をデザインした。その結果、純粋なML手法と比較して、次の3つの先進的な特徴が明らかになった:1.極端に小さいサイズや一貫性のないデータセットに対するMLの頑健性の大幅な改善、2.異なる事業体の記録集から効率的にデータを活用、3.高い解釈可能性と学習時間の短縮で不完全なデータを受け入れる特性。これらの特徴は、データ集約型の手法の導入ボトルネックを緩和し、実世界のデータ活用の効率化に貢献する有望な道筋を提供するものである。さらに、本研究では、事前知識とMLの汎化を組み合わせることで、ターゲットシナリオの利益を確保するために、4つの必要な前提条件をまとめている。

要約(オリジナル)

The demand for a huge amount of data for machine learning (ML) applications is currently a bottleneck in an empirically dominated field. We propose a method to combine prior knowledge with data-driven methods to significantly reduce their data dependency. In this study, component-based machine learning (CBML) as the knowledge-encoded data-driven method is examined in the context of energy-efficient building engineering. It encodes the abstraction of building structural knowledge as semantic information in the model organization. We design a case experiment to understand the efficacy of knowledge-encoded ML in sparse data input (1% – 0.0125% sampling rate). The result reveals its three advanced features compared with pure ML methods: 1. Significant improvement in the robustness of ML to extremely small-size and inconsistent datasets; 2. Efficient data utilization from different entities’ record collections; 3. Characteristics of accepting incomplete data with high interpretability and reduced training time. All these features provide a promising path to alleviating the deployment bottleneck of data-intensive methods and contribute to efficient real-world data usage. Moreover, four necessary prerequisites are summarized in this study that ensures the target scenario benefits by combining prior knowledge and ML generalization.

arxiv情報

著者 Xia Chen,Manav Mahan Singh,Philipp Geyer
発行日 2023-03-03 16:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク