要約
機械学習(ML)応用のための膨大なデータの要求は、経験的に支配的な分野では現在ボトルネックになっている。我々は、事前知識をデータ駆動型手法と組み合わせることで、そのデータ依存性を大幅に低減する手法を提案する。本研究では、知識を符号化したデータ駆動型手法としてのコンポーネントベース機械学習(CBML)を、エネルギー効率の良い建築工学の文脈で検討する。これは、建物の構造的知識の抽象化を、モデル構成における意味情報として符号化するものである。疎なデータ入力(サンプリング率1%~0.0125%)における知識符号化MLの有効性を理解するために、ケース実験をデザインした。その結果、純粋なML手法と比較して、次の3つの先進的な特徴が明らかになった:1.極端に小さいサイズや一貫性のないデータセットに対するMLの頑健性の大幅な改善、2.異なる事業体の記録集から効率的にデータを活用、3.高い解釈可能性と学習時間の短縮で不完全なデータを受け入れる特性。これらの特徴は、データ集約型の手法の導入ボトルネックを緩和し、実世界のデータ活用の効率化に貢献する有望な道筋を提供するものである。さらに、本研究では、事前知識とMLの汎化を組み合わせることで、ターゲットシナリオの利益を確保するために、4つの必要な前提条件をまとめている。
要約(オリジナル)
The demand for a huge amount of data for machine learning (ML) applications is currently a bottleneck in an empirically dominated field. We propose a method to combine prior knowledge with data-driven methods to significantly reduce their data dependency. In this study, component-based machine learning (CBML) as the knowledge-encoded data-driven method is examined in the context of energy-efficient building engineering. It encodes the abstraction of building structural knowledge as semantic information in the model organization. We design a case experiment to understand the efficacy of knowledge-encoded ML in sparse data input (1% – 0.0125% sampling rate). The result reveals its three advanced features compared with pure ML methods: 1. Significant improvement in the robustness of ML to extremely small-size and inconsistent datasets; 2. Efficient data utilization from different entities’ record collections; 3. Characteristics of accepting incomplete data with high interpretability and reduced training time. All these features provide a promising path to alleviating the deployment bottleneck of data-intensive methods and contribute to efficient real-world data usage. Moreover, four necessary prerequisites are summarized in this study that ensures the target scenario benefits by combining prior knowledge and ML generalization.
arxiv情報
著者 | Xia Chen,Manav Mahan Singh,Philipp Geyer |
発行日 | 2023-03-03 16:01:49+00:00 |
arxivサイト | arxiv_id(pdf) |