Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery

要約

Generalized Class Discovery (GCD) は、ラベル付きデータから学習した知識に部分的に基づいて、ラベルなしデータにラベルを動的に割り当てることを目的としています。ラベルなしデータは、既知のクラスまたは新しいクラスからのものである可能性があります。
一般的なアプローチには、すべてのデータにわたるクラスタリングと、プロトタイプの対照学習による概念の学習が含まれます。
ただし、既存の方法はクラスタリング アルゴリズムのパフォーマンスに大きく依存しているため、固有の制限を受けます。
まず、推定されたクラスター数はグラウンド トゥルースよりも小さいことが多く、既存の方法では包括的な概念学習のためのプロトタイプが不足しているという問題があります。
この問題に対処するために、クラスター プロトタイプ (センター) を拡張するために学習可能な潜在的なプロトタイプを導入する適応プローブ メカニズムを提案します。
潜在的なプロトタイプには根拠となる真実がないため、エンドツーエンドの方法で潜在的なプロトタイプを最適化するための自己教師型プロトタイプ学習フレームワークを開発します。
第 2 に、クラスタリングは計算量が多く、ラベル付きインスタンスとラベルなしインスタンスの両方をクラスタリングする従来の戦略ではこの問題がさらに悪化します。
この非効率性に対処するために、ラベルのないインスタンスのみをクラスター化し、その後、導入した潜在的なプロトタイプを使用してクラスター プロトタイプを拡張して、新しいクラスを迅速に探索することを選択します。
私たちが提案した方法は単純であるにもかかわらず、広範囲のデータセットに対する広範な実証分析により、私たちの方法が一貫して最先端の結果を提供することが確認されています。
具体的には、私たちの手法は、Stanford Cars データセット内では \textbf{9.7}$\%$ という大幅なマージンで最も近い競合他社を上回り、Herbarium 19 データセット内では \textbf{12$\times$} のクラスタリング効率を上回っています。
コードとチェックポイントは \url{https://github.com/xjtuYW/PNP.git} で公開する予定です。

要約(オリジナル)

Generalized Class Discovery (GCD) aims to dynamically assign labels to unlabelled data partially based on knowledge learned from labelled data, where the unlabelled data may come from known or novel classes. The prevailing approach generally involves clustering across all data and learning conceptions by prototypical contrastive learning. However, existing methods largely hinge on the performance of clustering algorithms and are thus subject to their inherent limitations. Firstly, the estimated cluster number is often smaller than the ground truth, making the existing methods suffer from the lack of prototypes for comprehensive conception learning. To address this issue, we propose an adaptive probing mechanism that introduces learnable potential prototypes to expand cluster prototypes (centers). As there is no ground truth for the potential prototype, we develop a self-supervised prototype learning framework to optimize the potential prototype in an end-to-end fashion. Secondly, clustering is computationally intensive, and the conventional strategy of clustering both labelled and unlabelled instances exacerbates this issue. To counteract this inefficiency, we opt to cluster only the unlabelled instances and subsequently expand the cluster prototypes with our introduced potential prototypes to fast explore novel classes. Despite the simplicity of our proposed method, extensive empirical analysis on a wide range of datasets confirms that our method consistently delivers state-of-the-art results. Specifically, our method surpasses the nearest competitor by a significant margin of \textbf{9.7}$\%$ within the Stanford Cars dataset and \textbf{12$\times$} clustering efficiency within the Herbarium 19 dataset. We will make the code and checkpoints publicly available at \url{https://github.com/xjtuYW/PNP.git}.

arxiv情報

著者 Ye Wang,Yaxiong Wang,Yujiao Wu,Bingchen Zhao,Xueming Qian
発行日 2024-04-18 17:26:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク