要約
Generalized category Discovery (GCD) は、ラベル付きサンプルから学習した知識を使用して、ラベルなしのデータセット内の新しいカテゴリを発見することを目的としています。
以前の研究では、パラメトリック分類器は既知のカテゴリーに過剰適合する傾向があると主張しており、半教師あり K 平均法で形成されたノンパラメトリック分類器の使用が支持されています。
しかし、この研究では、パラメトリック分類器の失敗を調査し、高品質の監視が利用可能な場合の以前の設計選択の有効性を検証し、信頼性の低い疑似ラベルを主要な問題として特定します。
2 つの予測バイアスが存在することを示します。分類器は、既知のクラスをより頻繁に予測する傾向があり、もう 1 つは既知のカテゴリーと新規カテゴリーにわたって不均衡な分布を生成します。
これらの発見に基づいて、エントロピー正則化の恩恵を受け、複数の GCD ベンチマークで最先端のパフォーマンスを達成し、未知のクラス数に対する強力なロバスト性を示す、シンプルかつ効果的なパラメトリック分類法を提案します。
私たちは、この調査と提案された単純な枠組みが、この分野での将来の研究を促進するための強力なベースラインとして機能することを願っています。
コードは https://github.com/CVMI-Lab/SimGCD から入手できます。
要約(オリジナル)
Generalized Category Discovery (GCD) aims to discover novel categories in unlabelled datasets using knowledge learned from labelled samples. Previous studies argued that parametric classifiers are prone to overfitting to seen categories, and endorsed using a non-parametric classifier formed with semi-supervised k-means. However, in this study, we investigate the failure of parametric classifiers, verify the effectiveness of previous design choices when high-quality supervision is available, and identify unreliable pseudo-labels as a key problem. We demonstrate that two prediction biases exist: the classifier tends to predict seen classes more often, and produces an imbalanced distribution across seen and novel categories. Based on these findings, we propose a simple yet effective parametric classification method that benefits from entropy regularisation, achieves state-of-the-art performance on multiple GCD benchmarks and shows strong robustness to unknown class numbers. We hope the investigation and proposed simple framework can serve as a strong baseline to facilitate future studies in this field. Our code is available at: https://github.com/CVMI-Lab/SimGCD.
arxiv情報
著者 | Xin Wen,Bingchen Zhao,Xiaojuan Qi |
発行日 | 2023-12-15 13:53:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google