要約
大規模な事前トレーニング済みモデルの出現は、視覚表現の学習と自然言語処理の両方にパラダイムシフトをもたらしました。
ただし、ラベルのない画像のクラスタリングは、機械学習の基本的かつ古典的な問題であり、特に大規模なデータセットの場合、依然として効果的な解決策が不足しています。
この論文では、CLIP やクラスター イメージなどの大規模な事前トレーニング済みモデルの強力な特徴表現を大規模かつ効果的かつ効率的に活用する、新しいイメージ クラスタリング パイプラインを提案します。
レート削減目標をさらに最適化することで、事前トレーニングされた特徴が大幅に構造化されることを示します。
結果として得られる特徴により、クラスタリングの精度が大幅に向上する可能性があります (たとえば、ImageNet-1k では 57\% から 66\% に)。
さらに、CLIP の画像とテキストのバインディングを活用することで、新しいクラスタリング手法が、MS-COCO や LAION-Aesthetics などのラベルのない大規模なデータセットで正常に動作する、シンプルかつ効果的な自己ラベル付けアルゴリズムにどのようにつながるかを示します。
コードは https://github.com/LeslieTrue/CPP で公開します。
要約(オリジナル)
The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57\% to 66\% on ImageNet-1k. Furthermore, by leveraging CLIP’s image-text binding, we show how the new clustering method leads to a simple yet effective self-labeling algorithm that successfully works on unlabeled large datasets such as MS-COCO and LAION-Aesthetics. We will release the code in https://github.com/LeslieTrue/CPP.
arxiv情報
著者 | Tianzhe Chu,Shengbang Tong,Tianjiao Ding,Xili Dai,Benjamin David Haeffele,René Vidal,Yi Ma |
発行日 | 2023-06-09 06:16:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google