要約
回帰タスクでは、予測機械学習モデルをトレーニングするために大規模なデータセットを活用することがよくあります。
ただし、計算上の制限やデータのラベル付けコストが高いため、大規模なデータセットの使用は実現できない場合があります。
したがって、効率を維持しながらモデルのパフォーマンスを最大化するには、ラベルのないデータ ポイントの大規模なプールから小さなトレーニング セットを適切に選択することが不可欠です。
この研究では、選択されたセットの塗りつぶし距離を最小限に抑えることを目的としたデータ選択アプローチである最遠点サンプリング (FPS) を研究します。
ラベルなしデータ ポイントの位置を条件として、トレーニング セットの充填距離に線形に依存する、予想される最大予測誤差の上限を導出します。
経験的検証のために、3 つのデータセットに対して 2 つの回帰モデルを使用して実験を実行します。
充填距離の最小化を目指してトレーニング セットを選択し、それによって導出された限界を最小化すると、さまざまな回帰モデルの最大予測誤差が大幅に減少し、代替のサンプリング アプローチよりも大幅に優れたパフォーマンスを発揮することが経験的に示されています。
さらに、FPS を使用してトレーニング セットを選択すると、ガウス カーネル回帰アプローチの特定のケースでモデルの安定性も向上する可能性があることを示します。
要約(オリジナル)
For regression tasks one often leverages large datasets for training predictive machine learning models. However, using large datasets may not be feasible due to computational limitations or high data labelling costs. Therefore, suitably selecting small training sets from large pools of unlabelled data points is essential to maximize model performance while maintaining efficiency. In this work, we study Farthest Point Sampling (FPS), a data selection approach that aims to minimize the fill distance of the selected set. We derive an upper bound for the maximum expected prediction error, conditional to the location of the unlabelled data points, that linearly depends on the training set fill distance. For empirical validation, we perform experiments using two regression models on three datasets. We empirically show that selecting a training set by aiming to minimize the fill distance, thereby minimizing our derived bound, significantly reduces the maximum prediction error of various regression models, outperforming alternative sampling approaches by a large margin. Furthermore, we show that selecting training sets with the FPS can also increase model stability for the specific case of Gaussian kernel regression approaches.
arxiv情報
著者 | Paolo Climaco,Jochen Garcke |
発行日 | 2023-12-05 13:23:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google