Learning with Noisy Foundation Models

要約

基礎モデルは通常、大規模なデータセットで事前トレーニングされ、調整を通じて下流のタスクに適応されます。
ただし、大規模な事前トレーニング データセットには、多くの場合アクセスできないか、処理するには高価すぎるため、モデルの一般化に悪影響を及ぼし、予期せぬリスクを引き起こす可能性のあるラベル ノイズが含まれる可能性があります。
この論文は、トレーニング前データセットのノイズの性質を包括的に理解して分析し、下流のタスクへの影響を効果的に軽減する最初の研究として際立っています。
具体的には、ノイズを含む合成 ImageNet-1K、YFCC15M、および CC12M データセットに対する完全教師あり画像テキスト対比事前トレーニングの広範な実験を通じて、事前トレーニングのわずかなノイズがドメイン内 (ID) のパフォーマンスに利益をもたらす可能性があることを実証しました。
、トレーニング データとテスト データが同様の分布を共有する場合、トレーニング データとテスト データの分布が大幅に異なるドメイン外 (OOD) のパフォーマンスは常に低下します。
これらの観察は、事前トレーニング データセット、事前トレーニング ノイズ タイプ、モデル アーキテクチャ、事前トレーニング目標、ダウンストリーム調整方法、およびダウンストリーム アプリケーションのスケールに依存しません。
この背後にある理由は、トレーニング前のノイズによって特徴空間の形状が異なるためであることが経験的に確認されています。
次に、ノイズの悪性影響を軽減し、一般化を改善するために特徴空間をアフィングする調整方法 (NMTune) を提案します。これは、パラメーター効率の高い調整方法とブラックボックス調整方法の両方に適用できます。
さらに、API を含む一般的な視覚モデルと言語モデルについて広範な実験を実施します。これらのモデルは、評価用に現実的なノイズを含むデータで事前トレーニングされた教師ありおよび自己教師付きです。
私たちの分析と結果は、この斬新で基礎的な研究方向の重要性を示しており、これをノイズモデル学習と呼んでいます。

要約(オリジナル)

Foundation models are usually pre-trained on large-scale datasets and then adapted to downstream tasks through tuning. However, the large-scale pre-training datasets, often inaccessible or too expensive to handle, can contain label noise that may adversely affect the generalization of the model and pose unexpected risks. This paper stands out as the first work to comprehensively understand and analyze the nature of noise in pre-training datasets and then effectively mitigate its impacts on downstream tasks. Specifically, through extensive experiments of fully-supervised and image-text contrastive pre-training on synthetic noisy ImageNet-1K, YFCC15M, and CC12M datasets, we demonstrate that, while slight noise in pre-training can benefit in-domain (ID) performance, where the training and testing data share a similar distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing distributions are significantly different. These observations are agnostic to scales of pre-training datasets, pre-training noise types, model architectures, pre-training objectives, downstream tuning methods, and downstream applications. We empirically ascertain that the reason behind this is that the pre-training noise shapes the feature space differently. We then propose a tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization, which is applicable in both parameter-efficient and black-box tuning manners. We additionally conduct extensive experiments on popular vision and language models, including APIs, which are supervised and self-supervised pre-trained on realistic noisy data for evaluation. Our analysis and results demonstrate the importance of this novel and fundamental research direction, which we term as Noisy Model Learning.

arxiv情報

著者 Hao Chen,Jindong Wang,Zihan Wang,Ran Tao,Hongxin Wei,Xing Xie,Masashi Sugiyama,Bhiksha Raj
発行日 2024-03-11 16:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク