Keep It Light! Simplifying Image Clustering Via Text-Free Adapters

要約

多くの競争力のあるクラスタリングパイプラインには、マルチモーダル設計があり、大規模な言語モデル(LLM)またはその他のテキストエンコーダーを活用し、テキストイメージペアがあり、実際のダウンストリームアプリケーションでは利用できないことがよくあります。
さらに、このようなフレームワークは一般にトレーニングを複雑であり、実質的な計算リソースを必要とし、広範囲にわたる採用が困難になります。
この作業では、深いクラスタリングでは、より複雑な最先端の方法を備えた競争力のあるパフォーマンスを、テキストなしで高度に簡素化されたトレーニングパイプラインを使用して実現できることを示しています。
特に、事前に訓練されたモデル(SCP)を介した単純なクラスタリングである私たちのアプローチは、事前に訓練されたビジョンモデルの特徴表現と正のデータペアを活用しながら、小さなクラスターヘッドのみを訓練します。
CIFAR-10、CIFAR-20、CIFAR-100、STL-10、Imagenet-10、およびImagenet-Dogsを含むベンチマークデータセットでの実験は、SCPが非常に競争力のあるパフォーマンスを達成することを示しています。
さらに、少なくとも理想的な条件下では、視覚の強力なクラスタリングパフォーマンスを達成するために、追加のテキストベースの埋め込みが必要ない理由を説明する理論的結果を提供します。

要約(オリジナル)

Many competitive clustering pipelines have a multi-modal design, leveraging large language models (LLMs) or other text encoders, and text-image pairs, which are often unavailable in real-world downstream applications. Additionally, such frameworks are generally complicated to train and require substantial computational resources, making widespread adoption challenging. In this work, we show that in deep clustering, competitive performance with more complex state-of-the-art methods can be achieved using a text-free and highly simplified training pipeline. In particular, our approach, Simple Clustering via Pre-trained models (SCP), trains only a small cluster head while leveraging pre-trained vision model feature representations and positive data pairs. Experiments on benchmark datasets including CIFAR-10, CIFAR-20, CIFAR-100, STL-10, ImageNet-10, and ImageNet-Dogs, demonstrate that SCP achieves highly competitive performance. Furthermore, we provide a theoretical result explaining why, at least under ideal conditions, additional text-based embeddings may not be necessary to achieve strong clustering performance in vision.

arxiv情報

著者 Yicen Li,Haitz Sáez de Ocáriz Borde,Anastasis Kratsios,Paul D. McNicholas
発行日 2025-02-06 17:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, stat.CO, stat.ML パーマリンク