Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks

要約

大規模なデータセットで事前トレーニングしてから下流のタスクで微調整することは、ディープ ラーニングの標準的な手法となっています。
ただし、トレーニング前のデータには、モデルの一般化に悪影響を及ぼす可能性のあるラベル ノイズが含まれることがよくあります。
このペーパーは、事前トレーニング データセットのノイズの性質を理解し、下流のタスクへの影響を軽減することを目的としています。
より具体的には、ノイズの多い合成 ImageNet-1K および YFCC15M データセットに対する教師あり事前トレーニング モデルの広範な実験を通じて、事前トレーニングのわずかなノイズが、トレーニング データとテスト データが共有されるドメイン内 (ID) 転送パフォーマンスに利益をもたらす可能性があることを実証しました。
同じ分布であっても、トレーニング データとテスト データの分布が異なるドメイン外 (OOD) のパフォーマンスは常に低下します。
私たちは、その背後にある理由が、事前トレーニングにおけるノイズによって特徴空間の形状が異なることであることを経験的に検証しています。
次に、完全に微調整できない可能性や、
事前トレーニングされたモデルにアクセスします。
私たちは、アプローチの評価のためにノイズの多いデータで事前にトレーニングされた一般的な視覚モデルと言語モデルで実践的な実験を行います。
私たちの分析と結果は、ノイズモデル学習と呼ばれるこの興味深く斬新な研究方向の重要性を示しています。

要約(オリジナル)

Pre-training on large-scale datasets and then fine-tuning on downstream tasks have become a standard practice in deep learning. However, pre-training data often contain label noise that may adversely affect the generalization of the model. This paper aims to understand the nature of noise in pre-training datasets and to mitigate its impact on downstream tasks. More specifically, through extensive experiments of supervised pre-training models on synthetic noisy ImageNet-1K and YFCC15M datasets, we demonstrate that while slight noise in pre-training can benefit in-domain (ID) transfer performance, where the training and testing data share the same distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing data distribution are different. We empirically verify that the reason behind is noise in pre-training shapes the feature space differently. We then propose a light-weight black-box tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization on both ID and OOD tasks, considering one may not be able to fully fine-tune or even access the pre-trained models. We conduct practical experiments on popular vision and language models that are pre-trained on noisy data for evaluation of our approach. Our analysis and results show the importance of this interesting and novel research direction, which we term Noisy Model Learning.

arxiv情報

著者 Hao Chen,Jindong Wang,Ankit Shah,Ran Tao,Hongxin Wei,Xing Xie,Masashi Sugiyama,Bhiksha Raj
発行日 2024-03-11 15:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク