CLIP: Train Faster with Less Data

要約

深層学習モデルのトレーニングには膨大な量のデータが必要です。
ただし、最近では機械学習がモデル中心のアプローチからデータ中心のアプローチに移行しています。
データ中心のアプローチでは、モデル アーキテクチャを再設計するのではなく、データの品質を洗練および改善してモデルの学習パフォーマンスを向上させることに重点が置かれています。
この論文では、CLIP、つまり反復データ枝刈りによるカリキュラム学習を提案します。
CLIP は、2 つのデータ中心のアプローチ、つまりカリキュラム学習とデータセット プルーニングを組み合わせて、モデル学習の精度と収束速度を向上させます。
提案されたスキームは、損失を認識したデータセット プルーニングを適用して、最も重要度の低いサンプルを繰り返し削除し、カリキュラム学習トレーニングにおける有効なデータセットのサイズを段階的に縮小します。
群集密度推定モデルに対して実行された広範な実験により、収束時間を短縮し、一般化を改善することで 2 つのアプローチを組み合わせる背後にある概念が検証されました。
私たちの知る限り、カリキュラム学習に組み込まれたプロセスとしてのデータ プルーニングのアイデアは新しいものです。

要約(オリジナル)

Deep learning models require an enormous amount of data for training. However, recently there is a shift in machine learning from model-centric to data-centric approaches. In data-centric approaches, the focus is to refine and improve the quality of the data to improve the learning performance of the models rather than redesigning model architectures. In this paper, we propose CLIP i.e., Curriculum Learning with Iterative data Pruning. CLIP combines two data-centric approaches i.e., curriculum learning and dataset pruning to improve the model learning accuracy and convergence speed. The proposed scheme applies loss-aware dataset pruning to iteratively remove the least significant samples and progressively reduces the size of the effective dataset in the curriculum learning training. Extensive experiments performed on crowd density estimation models validate the notion behind combining the two approaches by reducing the convergence time and improving generalization. To our knowledge, the idea of data pruning as an embedded process in curriculum learning is novel.

arxiv情報

著者 Muhammad Asif Khan,Ridha Hamila,Hamid Menouar
発行日 2023-07-17 09:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク