要約
精度の高い機械学習(ML)モデルを学習するために多くのデータを取得することは、データ収集にリソースを要する科学分野では大きな課題である。本論文では、複雑な多次元パラメータ空間におけるMLモデルの学習のために、最小でありながら情報量の多いデータベースを構築するための新しいアプローチを提案する。これを実現するために、ガウス過程回帰(GPR)を用いて、出力パラメータと入力パラメータの間の基本的な関係を模倣する。既知のデータセットを用いて、GPRは未知のデータの予測平均と標準偏差を提供する。GPRによって予測された標準偏差が与えられたら、ベイズ最適化を用いてデータ点を選択し、MLモデルを訓練するための効率的なデータベースを得る。この方法で得られたデータベースで学習したMLモデルの性能を、従来のアプローチで得られたデータベースと比較する。その結果、ベイズ最適化手法を用いて得られたデータベースで学習したMLモデルは、他の2つのデータベースを常に凌駕し、少ないデータ点数で高い精度を達成することが実証された。我々の研究は、高精度の機械学習予測を達成するために、高次元の複雑なパラメータ空間におけるデータの資源効率的な収集に貢献する。
要約(オリジナル)
Acquiring a substantial number of data points for training accurate machine learning (ML) models is a big challenge in scientific fields where data collection is resource-intensive. Here, we propose a novel approach for constructing a minimal yet highly informative database for training ML models in complex multi-dimensional parameter spaces. To achieve this, we mimic the underlying relation between the output and input parameters using Gaussian process regression (GPR). Using a set of known data, GPR provides predictive means and standard deviation for the unknown data. Given the predicted standard deviation by GPR, we select data points using Bayesian optimization to obtain an efficient database for training ML models. We compare the performance of ML models trained on databases obtained through this method, with databases obtained using traditional approaches. Our results demonstrate that the ML models trained on the database obtained using Bayesian optimization approach consistently outperform the other two databases, achieving high accuracy with a significantly smaller number of data points. Our work contributes to the resource-efficient collection of data in high-dimensional complex parameter spaces, to achieve high precision machine learning predictions.
arxiv情報
著者 | M. R. Mahani,Igor A. Nechepurenko,Yasmin Rahimof,Andreas Wicht |
発行日 | 2023-12-04 16:36:29+00:00 |
arxivサイト | arxiv_id(pdf) |