LossVal: Efficient Data Valuation for Neural Networks

要約

個々のトレーニング サンプルの重要性を評価することは、機械学習における重要な課題です。
従来のアプローチでは、特定のサンプルの有無にかかわらずモデルを再トレーニングしますが、計算コストが高くつき、データ ポイント間の依存関係が無視されます。
LossVal は、クロスエントロピーや平均二乗誤差などの損失関数に自己重み付けメカニズムを埋め込むことで、ニューラル ネットワークのトレーニング中に重要度スコアを計算する効率的なデータ評価方法です。
LossVal は計算コストを削減し、大規模なデータセットや実用的なアプリケーションに適しています。
複数のデータセットにわたる分類および回帰タスクの実験では、LossVal がノイズの多いサンプルを効果的に識別し、有益なサンプルと有害なサンプルを区別できることが示されています。
LossVal の勾配計算を調べて、その利点を強調します。
ソースコードはhttps://github.com/twibiral/LossValから入手できます。

要約(オリジナル)

Assessing the importance of individual training samples is a key challenge in machine learning. Traditional approaches retrain models with and without specific samples, which is computationally expensive and ignores dependencies between data points. We introduce LossVal, an efficient data valuation method that computes importance scores during neural network training by embedding a self-weighting mechanism into loss functions like cross-entropy and mean squared error. LossVal reduces computational costs, making it suitable for large datasets and practical applications. Experiments on classification and regression tasks across multiple datasets show that LossVal effectively identifies noisy samples and is able to distinguish helpful from harmful samples. We examine the gradient calculation of LossVal to highlight its advantages. The source code is available at: https://github.com/twibiral/LossVal

arxiv情報

著者 Tim Wibiral,Mohamed Karim Belaid,Maximilian Rabus,Ansgar Scherp
発行日 2024-12-17 16:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク