Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models

要約

大規模な事前トレーニング済みモデルの出現は、視覚表現の学習と自然言語処理の両方にパラダイムシフトをもたらしました。
ただし、ラベルのない画像のクラスタリングは、機械学習の基本的かつ古典的な問題であり、特に大規模なデータセットに対して効果的な解決策がまだありません。
この論文では、CLIP やクラスター イメージなどの大規模な事前トレーニング済みモデルの強力な特徴表現を大規模かつ効果的かつ効率的に活用する、新しいイメージ クラスタリング パイプラインを提案します。
私たちはまず、特定のデータセット内のクラスターの数を推定する新しいアルゴリズムを開発しました。
次に、レート削減目標をさらに最適化することで、事前トレーニングされた特徴が大幅に構造化されることを示します。
結果として得られる特徴により、クラスタリングの精度が大幅に向上する可能性があります (たとえば、ImageNet-1k では 57\% から 66\% に)。
さらに、CLIP の画像とテキスト間のマルチモダリティ ブリッジを活用することで、クラスターに意味のあるキャプションを生成する、シンプルでありながら効果的な自己ラベル付けアルゴリズムを開発します。
広範な実験を通じて、私たちのパイプラインが CIFAR-10、CIFAR-100、ImageNet-1k などの標準データセットで適切に動作することを示しています。
LAION-Aesthetics や WikiArts など、クラスタリング用に厳選されていないデータセットにも適用されます。
コードは https://github.com/LeslieTrue/CPP でリリースしました。

要約(オリジナル)

The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks an effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We first developed a novel algorithm to estimate the number of clusters in a given dataset. We then show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57\% to 66\% on ImageNet-1k. Furthermore, by leveraging CLIP’s multimodality bridge between image and text, we develop a simple yet effective self-labeling algorithm that produces meaningful captions for the clusters. Through extensive experiments, we show that our pipeline works well on standard datasets such as CIFAR-10, CIFAR-100, and ImageNet-1k. It also extends to datasets that are not curated for clustering, such as LAION-Aesthetics and WikiArts. We released the code in https://github.com/LeslieTrue/CPP.

arxiv情報

著者 Tianzhe Chu,Shengbang Tong,Tianjiao Ding,Xili Dai,Benjamin David Haeffele,René Vidal,Yi Ma
発行日 2024-04-26 14:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク