CLIPCleaner: Cleaning Noisy Labels with CLIP

要約

ノイズのあるラベルによる学習 (LNL) は、機械学習コミュニティにとって大きな課題となります。
モデル自体 (トレーニング内モデル) の信頼度が高い、たとえば「損失が小さい」などのクリーンなサンプルを選択する最も広く使用されているアプローチの一部は、いわゆる「自己確認」バイアスの影響を受ける可能性があります。
このバイアスは、トレーニング内モデルがノイズの多いラベルで少なくとも部分的にトレーニングされているために発生します。
さらに、分類の場合、ラベル ノイズの一部が視覚的に非常に類似しているクラス間にあるため (「ハード ノイズ」)、追加の課題が発生します。
この論文では、効率的でオフラインのクリーンなサンプル選択のためのゼロショット分類器を構築するための強力なビジョン言語 (VL) モデルである CLIP を活用する方法 (\textit{CLIPCleaner}) を提案することで、これらの課題に対処します。
これには、サンプル選択がトレーニング内モデルから切り離され、サンプル選択が CLIP のトレーニング方法によるクラス間の意味的および視覚的な類似性を認識するという利点があります。
従来の事前トレーニング済みモデルと比較した LNL 向け CLIP の利点を実証する理論的根拠と経験的証拠を提供します。
反復的なサンプル選択とさまざまな技術を組み合わせた現在の方法と比較して、\textit{CLIPCleaner} は、ベンチマーク データセットで競合または優れたパフォーマンスを達成するシンプルな単一ステップのアプローチを提供します。
私たちの知る限り、ノイズのあるラベルによる学習 (LNL) の問題に対処するためのサンプル選択に VL モデルが使用されたのはこれが初めてであり、この分野での可能性が強調されています。

要約(オリジナル)

Learning with Noisy labels (LNL) poses a significant challenge for the Machine Learning community. Some of the most widely used approaches that select as clean samples for which the model itself (the in-training model) has high confidence, e.g., `small loss’, can suffer from the so called `self-confirmation’ bias. This bias arises because the in-training model, is at least partially trained on the noisy labels. Furthermore, in the classification case, an additional challenge arises because some of the label noise is between classes that are visually very similar (`hard noise’). This paper addresses these challenges by proposing a method (\textit{CLIPCleaner}) that leverages CLIP, a powerful Vision-Language (VL) model for constructing a zero-shot classifier for efficient, offline, clean sample selection. This has the advantage that the sample selection is decoupled from the in-training model and that the sample selection is aware of the semantic and visual similarities between the classes due to the way that CLIP is trained. We provide theoretical justifications and empirical evidence to demonstrate the advantages of CLIP for LNL compared to conventional pre-trained models. Compared to current methods that combine iterative sample selection with various techniques, \textit{CLIPCleaner} offers a simple, single-step approach that achieves competitive or superior performance on benchmark datasets. To the best of our knowledge, this is the first time a VL model has been used for sample selection to address the problem of Learning with Noisy Labels (LNL), highlighting their potential in the domain.

arxiv情報

著者 Chen Feng,Georgios Tzimiropoulos,Ioannis Patras
発行日 2024-08-19 14:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク