PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity

要約

深い学習が引き続き、より広大なデータセットによって推進されているため、どの例が一般化にとって最も重要であるかを理解することが重要な問題になりました。
データ選択の進捗状況は続きますが、新たなアプリケーションでは、動的なコンテキストでこの問題を研究する必要があります。
このギャップを埋めるために、インクリメンタルデータ選択(IDS)の問題を提起します。例では、例は連続ストリームとして到着し、完全なデータソースにアクセスせずに選択する必要があります。
この設定では、学習者は、基礎となるタスクを同時に学習しながら、事前定義されたサイズのトレーニングデータセットを徐々に構築する必要があります。
IDSでは、モデル状態に対する新しいサンプルの影響は、特徴空間における幾何学的関係と予測誤差の両方に根本的に依存することがわかります。
この洞察を活用して、IDSに合わせた効率的なデータ選択方法であるピーク(カーネルの類似性によって固定された予測エラー)を提案します。
当社の包括的な評価は、ピークが既存の選択戦略を常に上回ることを示しています。
さらに、トレーニングデータサイズが実際のデータセットで増加するため、ピークはランダム選択よりもますます優れたパフォーマンスリターンを生み出します。

要約(オリジナル)

As deep learning continues to be driven by ever-larger datasets, understanding which examples are most important for generalization has become a critical question. While progress in data selection continues, emerging applications require studying this problem in dynamic contexts. To bridge this gap, we pose the Incremental Data Selection (IDS) problem, where examples arrive as a continuous stream, and need to be selected without access to the full data source. In this setting, the learner must incrementally build a training dataset of predefined size while simultaneously learning the underlying task. We find that in IDS, the impact of a new sample on the model state depends fundamentally on both its geometric relationship in the feature space and its prediction error. Leveraging this insight, we propose PEAKS (Prediction Error Anchored by Kernel Similarity), an efficient data selection method tailored for IDS. Our comprehensive evaluations demonstrate that PEAKS consistently outperforms existing selection strategies. Furthermore, PEAKS yields increasingly better performance returns than random selection as training data size grows on real-world datasets.

arxiv情報

著者 Mustafa Burak Gurbuz,Xingyu Zheng,Constantine Dovrolis
発行日 2025-04-07 16:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク