要約
高度な機械学習モデルのトレーニングには、大規模なデータセットが必要であり、その結果、法外な計算コストが生じます。
この課題に対処するために、データプルーニング手法は、モデルのパフォーマンスを維持しながら、冗長トレーニングサンプルを特定して削除します。
しかし、既存の剪定技術では、主に取り外し可能なサンプルを特定するために完全な初期トレーニングパスが必要であり、単一のトレーニングの実行の効率的な利点を無効にします。
この制限を克服するために、データのわずかなサブセットのみでトレーニングを必要とする新しい重要性スコア外挿フレームワークを紹介します。
このフレームワークでは、この最小限のサブセットから学んだパターンを使用してデータセット全体のサンプルの重要性を正確に予測するために、このフレームワークで2つの初期アプローチを提示します。
2つの最先端の剪定方法(動的な不確実性とTDD)、4つの異なるデータセット(CIFAR-10、CIFAR-100、Places-365、およびImagenet)、および3つのトレーニングパラダイム(監督、監督なし、および副詞)のアプローチの有効性を実証します。
私たちの結果は、スコアの外挿が剪定、データの帰属、その他のタスクなどの高価なスコア計算方法を拡大するための有望な方向であることを示しています。
要約(オリジナル)
Training advanced machine learning models demands massive datasets, resulting in prohibitive computational costs. To address this challenge, data pruning techniques identify and remove redundant training samples while preserving model performance. Yet, existing pruning techniques predominantly require a full initial training pass to identify removable samples, negating any efficiency benefits for single training runs. To overcome this limitation, we introduce a novel importance score extrapolation framework that requires training on only a small subset of data. We present two initial approaches in this framework – k-nearest neighbors and graph neural networks – to accurately predict sample importance for the entire dataset using patterns learned from this minimal subset. We demonstrate the effectiveness of our approach for 2 state-of-the-art pruning methods (Dynamic Uncertainty and TDDS), 4 different datasets (CIFAR-10, CIFAR-100, Places-365, and ImageNet), and 3 training paradigms (supervised, unsupervised, and adversarial). Our results indicate that score extrapolation is a promising direction to scale expensive score calculation methods, such as pruning, data attribution, or other tasks.
arxiv情報
著者 | Sebastian Schmidt,Prasanga Dhungel,Christoffer Löffler,Björn Nieth,Stephan Günnemann,Leo Schwinn |
発行日 | 2025-06-10 17:38:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google