要約
視覚言語の事前トレーニング済みモデルの驚くべきゼロショット一般化能力に触発されて、CLIPモデルからの監視を活用してデータラベリングの負担を軽減しようとしています。
ただし、そのような監視には必然的にラベルノイズが含まれ、分類モデルの識別力が大幅に低下します。
この作業では、ノイズの多いラベルを使用して分類ネットワークを最初から学習するための新しいフレームワークであるTransductiveCLIPを提案します。
まず、疑似ラベルへの依存を軽減し、ノイズの多いラベルへの耐性を高めるために、クラス条件付きの対照学習メカニズムが提案されています。
第二に、アンサンブルラベルは、ノイズの多いラベルを持つディープニューラルネットワークのトレーニングを安定させるための疑似ラベル更新戦略として採用されています。
このフレームワークは、両方の手法を組み合わせることにより、CLIPモデルからのノイズの多いラベルの影響を効果的に減らすことができます。
複数のベンチマークデータセットでの実験は、他の最先端の方法に比べて大幅な改善を示しています。
要約(オリジナル)
Inspired by the remarkable zero-shot generalization capacity of vision-language pre-trained model, we seek to leverage the supervision from CLIP model to alleviate the burden of data labeling. However, such supervision inevitably contains the label noise, which significantly degrades the discriminative power of the classification model. In this work, we propose Transductive CLIP, a novel framework for learning a classification network with noisy labels from scratch. Firstly, a class-conditional contrastive learning mechanism is proposed to mitigate the reliance on pseudo labels and boost the tolerance to noisy labels. Secondly, ensemble labels is adopted as a pseudo label updating strategy to stabilize the training of deep neural networks with noisy labels. This framework can reduce the impact of noisy labels from CLIP model effectively by combining both techniques. Experiments on multiple benchmark datasets demonstrate the substantial improvements over other state-of-the-art methods.
arxiv情報
著者 | Junchu Huang,Weijie Chen,Shicai Yang,Di Xie,Shiliang Pu,Yueting Zhuang |
発行日 | 2022-06-13 14:04:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google