Investigating minimizing the training set fill distance in machine learning regression

要約

多くの機械学習回帰手法は、予測モデルのトレーニングに大規模なデータセットを利用します。
ただし、計算上の制限やラベル付けコストが高いため、大規模なデータセットの使用は実現できない場合があります。
したがって、計算効率を維持しながらモデルのパフォーマンスを最大化するには、ラベルのないデータ ポイントの大規模なプールから小さなトレーニング セットをサンプリングすることが不可欠です。
この研究では、選択したセットの塗りつぶし距離を最小限に抑えることを目的としたサンプリング アプローチを研究します。
データ特徴の知識を条件として、トレーニング セットの充填距離に線形的に依存する、予想される最大予測誤差の上限を導出します。
経験的検証のために、2 つのデータセットに対して 2 つの回帰モデルを使用して実験を実行します。
充填距離を最小化することを目指してトレーニング セットを選択し、それによって境界を最小化すると、さまざまな回帰モデルの最大予測誤差が大幅に減少し、既存のサンプリング アプローチよりも大幅に優れたパフォーマンスを発揮することが経験的に示されています。

要約(オリジナル)

Many machine learning regression methods leverage large datasets for training predictive models. However, using large datasets may not be feasible due to computational limitations or high labelling costs. Therefore, sampling small training sets from large pools of unlabelled data points is essential to maximize model performance while maintaining computational efficiency. In this work, we study a sampling approach aimed to minimize the fill distance of the selected set. We derive an upper bound for the maximum expected prediction error that linearly depends on the training set fill distance, conditional to the knowledge of data features. For empirical validation, we perform experiments using two regression models on two datasets. We empirically show that selecting a training set by aiming to minimize the fill distance, thereby minimizing the bound, significantly reduces the maximum prediction error of various regression models, outperforming existing sampling approaches by a large margin.

arxiv情報

著者 Paolo Climaco,Jochen Garcke
発行日 2023-07-20 16:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク