要約
一般化されたカテゴリ発見 (GCD) は、ラベル付けされたサンプルのセットから学習した知識を使用して、ラベル付けされていないデータセット内で新しいカテゴリを発見することを目標とする問題設定です。
GCD の最近の研究では、半教師付き $k$ 平均を使用して形成されたノンパラメトリック分類器は、ラベル付きセットで見られるカテゴリへの過適合を軽減できるため、パラメトリック分類器を使用する強力なベースラインよりも優れていると主張しています。
この論文では、以前のパラメトリック分類器が GCD の新しいクラスを認識できなかった理由を再検討します。
モデル アーキテクチャ、表現学習、および分類器学習の観点からパラメトリック分類器の設計上の選択を調査することにより、識別性の低い表現と信頼性の低い疑似ラベル付け戦略が、パラメトリック分類器が非パラメトリック分類器に遅れをとらせる主な要因であると結論付けました。
私たちの調査に動機付けられて、複数の一般的な GCD ベンチマークで以前の最良の方法を大幅に上回る、シンプルでありながら効果的なパラメトリック分類ベースラインを提示します。
調査と単純なベースラインが、将来の研究を促進するための基礎として役立つことを願っています.
コードは https://github.com/CVMI-Lab/SimGCD で入手できます。
要約(オリジナル)
Generalized category discovery (GCD) is a problem setting where the goal is to discover novel categories within an unlabelled dataset using the knowledge learned from a set of labelled samples. Recent works in GCD argue that a non-parametric classifier formed using semi-supervised $k$-means can outperform strong baselines which use parametric classifiers as it can alleviate the over-fitting to seen categories in the labelled set. In this paper, we revisit the reason that makes previous parametric classifiers fail to recognise new classes for GCD. By investigating the design choices of parametric classifiers from the perspective of model architecture, representation learning, and classifier learning, we conclude that the less discriminative representations and unreliable pseudo-labelling strategy are key factors that make parametric classifiers lag behind non-parametric ones. Motivated by our investigation, we present a simple yet effective parametric classification baseline that outperforms the previous best methods by a large margin on multiple popular GCD benchmarks. We hope the investigations and the simple baseline can serve as a cornerstone to facilitate future studies. Our code is available at: https://github.com/CVMI-Lab/SimGCD.
arxiv情報
著者 | Xin Wen,Bingchen Zhao,Xiaojuan Qi |
発行日 | 2022-11-21 18:47:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google