要約
基礎モデルは通常、大規模なデータセットで事前に訓練されており、チューニングを通じて下流のタスクに適応します。
ただし、しばしばアクセスできない、または処理するには高すぎる大規模なトレーニングデータセットは、モデルの一般化に悪影響を及ぼし、予期しないリスクをもたらす可能性のあるラベルノイズを含む可能性があります。
この論文は、トレーニング前のデータセットの騒音の性質を包括的に理解して分析し、その後、下流のタスクへの影響を効果的に緩和するための最初の作業として際立っています。
具体的には、合成ノイズの1K、YFCC15M、およびCC12Mデータセットでの完全に監視された画像テキストの対照的なプリトレーニングの広範な実験を通じて、トレーニング前のパフォーマンスとトレーニングの分布が常に描かれている場合、トレーニングとテスト分布の場合、トレーニングとテスト分布がある場合、トレーニングとテスト分布の場合、トレーニング前(ID)のパフォーマンスに恩恵をもたらすことを実証します。
かなり異なります。
これらの観察結果は、トレーニング前のデータセット、トレーニング前のノイズタイプ、モデルアーキテクチャ、トレーニング前の目標、ダウンストリームチューニング方法、およびダウンストリームアプリケーションのスケールに対して不可知論的です。
この背後にある理由は、トレーニング前のノイズが特徴空間を異なって形作ることであることを経験的に確認します。
次に、チューニング方法(NMTUNE)を提案して、ノイズの悪性効果を軽減し、パラメーター効率の高いおよびブラックボックスチューニングマナーの両方に適用される一般化を改善するための特徴空間を添加します。
さらに、評価のために現実的な騒々しいデータに関する監督された自己監督の事前に訓練されたAPIを含む、一般的なビジョンと言語モデルに関する広範な実験を実施します。
私たちの分析と結果は、この斬新で基本的な研究の方向性の重要性を示しています。これは騒々しいモデル学習と呼ばれます。
要約(オリジナル)
Foundation models are usually pre-trained on large-scale datasets and then adapted to downstream tasks through tuning. However, the large-scale pre-training datasets, often inaccessible or too expensive to handle, can contain label noise that may adversely affect the generalization of the model and pose unexpected risks. This paper stands out as the first work to comprehensively understand and analyze the nature of noise in pre-training datasets and then effectively mitigate its impacts on downstream tasks. Specifically, through extensive experiments of fully-supervised and image-text contrastive pre-training on synthetic noisy ImageNet-1K, YFCC15M, and CC12M datasets, we demonstrate that, while slight noise in pre-training can benefit in-domain (ID) performance, where the training and testing data share a similar distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing distributions are significantly different. These observations are agnostic to scales of pre-training datasets, pre-training noise types, model architectures, pre-training objectives, downstream tuning methods, and downstream applications. We empirically ascertain that the reason behind this is that the pre-training noise shapes the feature space differently. We then propose a tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization, which is applicable in both parameter-efficient and black-box tuning manners. We additionally conduct extensive experiments on popular vision and language models, including APIs, which are supervised and self-supervised pre-trained on realistic noisy data for evaluation. Our analysis and results demonstrate the importance of this novel and fundamental research direction, which we term as Noisy Model Learning.
arxiv情報
著者 | Hao Chen,Zihan Wang,Ran Tao,Hongxin Wei,Xing Xie,Masashi Sugiyama,Bhiksha Raj,Jindong Wang |
発行日 | 2025-05-05 03:07:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google