A Closer Look at Novel Class Discovery from the Labeled Set

要約

新規クラス発見(NCD)は、不連続だが関連するクラスからなるラベル付き集合の事前知識を利用して、ラベルのないデータセットから新規のカテゴリを推定することを目的としている。既存の研究では、主に方法論レベルでラベル付き集合を利用することに焦点が当てられており、ラベル付き集合の分析自体にはあまり重点が置かれていない。そこで本論文では、ラベル付き集合からの新規クラス発見を再考し、以下の2つの核心的な問題に焦点を当てる: (i) 特定のラベルなし集合が与えられたとき、どのようなラベル付き集合が新規クラス発見を最もよく支援できるか?(ii) NCDの大前提として、ラベル付き集合はラベルなし集合と関係がなければならないが、この関係をどのように測定すればよいのか?本研究では、ラベル付き集合とラベル無し集合の意味的類似度が高ければ高いほど、NCDの効果が高まるという仮説を提案し、その実証を行う。具体的には、ImageNetの階層的なクラス構造を利用し、ラベル付き/ラベルなしデータセット間の意味的類似度の異なる大規模なベンチマークを構築する。既存のNCDベンチマークは、カテゴリ数や画像数が異なるラベル付きデータセットに基づいて開発されており、意味的関係が完全に無視されている点が大きく異なる。本論文では、ラベル付き集合とラベルなし集合の意味的な類似度を定量化するための数学的定義を導入し、ラベル付き集合とラベルなし集合の意味的な類似度を比較する。さらに、この指標を用いて、提案ベンチマークの妥当性を確認し、NCDの性能と高い相関があることを示す。さらに、定量的な分析が行われないまま、先行研究ではラベル情報は常に有益であると一般的に信じられている。しかし、直感に反して、我々の実験結果は、低類似度環境ではラベルを使うことが最適でない結果を導く可能性があることを示している。

要約(オリジナル)

Novel class discovery (NCD) aims to infer novel categories in an unlabeled dataset leveraging prior knowledge of a labeled set comprising disjoint but related classes. Existing research focuses primarily on utilizing the labeled set at the methodological level, with less emphasis on the analysis of the labeled set itself. Thus, in this paper, we rethink novel class discovery from the labeled set and focus on two core questions: (i) Given a specific unlabeled set, what kind of labeled set can best support novel class discovery? (ii) A fundamental premise of NCD is that the labeled set must be related to the unlabeled set, but how can we measure this relation? For (i), we propose and substantiate the hypothesis that NCD could benefit more from a labeled set with a large degree of semantic similarity to the unlabeled set. Specifically, we establish an extensive and large-scale benchmark with varying degrees of semantic similarity between labeled/unlabeled datasets on ImageNet by leveraging its hierarchical class structure. As a sharp contrast, the existing NCD benchmarks are developed based on labeled sets with different number of categories and images, and completely ignore the semantic relation. For (ii), we introduce a mathematical definition for quantifying the semantic similarity between labeled and unlabeled sets. In addition, we use this metric to confirm the validity of our proposed benchmark and demonstrate that it highly correlates with NCD performance. Furthermore, without quantitative analysis, previous works commonly believe that label information is always beneficial. However, counterintuitively, our experimental results show that using labels may lead to sub-optimal outcomes in low-similarity settings.

arxiv情報

著者 Ziyun Li,Jona Otholt,Ben Dai,Di hu,Christoph Meinel,Haojin Yang
発行日 2023-01-10 15:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク