Generalized Category Discovery with Clustering Assignment Consistency

要約

Generalized category Discovery (GCD) は、最近提案されたオープンワールド タスクです。
ラベル付きインスタンスとラベルなしインスタンスで構成される画像セットが与えられた場合、GCD の目標は、ラベル付きデータセットから転送された情報を使用してラベルなしサンプルを自動的にクラスター化することです。
ラベルのないデータセットは、既知のクラスと新規クラスの両方で構成されます。
主な課題は、ラベルなしの新規クラス サンプルとラベルなしの既知クラス サンプルがラベルなしデータセット内で混在していることです。
ラベルのないデータセットのクラス番号を知らずに GCD に対処するために、クラスタリングの一貫性を促進する共学習ベースのフレームワークを提案します。
具体的には、最初に弱い拡張変換と強力な拡張変換を導入して、同じサンプルに対して 2 つの十分に異なるビューを生成します。
次に、共同トレーニングの仮定に基づいて、特徴とプロトタイプの類似性とクラスタリング割り当ての間の一貫性を促進する一貫性表現学習戦略を提案します。
最後に、半教師あり表現学習プロセスで学習した識別埋め込みを使用して独自のスパースネットワークを構築し、コミュニティ検出手法を使用してクラスタリング結果とカテゴリ数を同時に取得します。
広範な実験により、私たちの手法が 3 つの一般的なベンチマークと 3 つのきめの細かい視覚認識データセットで最先端のパフォーマンスを達成することが示されました。
特に ImageNet-100 データセットでは、私たちの方法は \texttt{Novel} クラスと \texttt{All} クラスでそれぞれ 15.5\% と 7.0\% 最良のベースラインを大幅に上回っています。

要約(オリジナル)

Generalized category discovery (GCD) is a recently proposed open-world task. Given a set of images consisting of labeled and unlabeled instances, the goal of GCD is to automatically cluster the unlabeled samples using information transferred from the labeled dataset. The unlabeled dataset comprises both known and novel classes. The main challenge is that unlabeled novel class samples and unlabeled known class samples are mixed together in the unlabeled dataset. To address the GCD without knowing the class number of unlabeled dataset, we propose a co-training-based framework that encourages clustering consistency. Specifically, we first introduce weak and strong augmentation transformations to generate two sufficiently different views for the same sample. Then, based on the co-training assumption, we propose a consistency representation learning strategy, which encourages consistency between feature-prototype similarity and clustering assignment. Finally, we use the discriminative embeddings learned from the semi-supervised representation learning process to construct an original sparse network and use a community detection method to obtain the clustering results and the number of categories simultaneously. Extensive experiments show that our method achieves state-of-the-art performance on three generic benchmarks and three fine-grained visual recognition datasets. Especially in the ImageNet-100 data set, our method significantly exceeds the best baseline by 15.5\% and 7.0\% on the \texttt{Novel} and \texttt{All} classes, respectively.

arxiv情報

著者 Xiangli Yang,Xinglin Pan,Irwin King,Zenglin Xu
発行日 2023-10-30 00:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク