要約
新規クラス発見 (NCD) は、互いに素であるが関連するクラスで構成されるラベル付きセットの事前知識を活用して、ラベルのないデータセットで新規カテゴリを推測することを目的としています。
既存の研究は主に方法論レベルでラベル付きセットを利用することに焦点を当てており、ラベル付きセット自体の分析にはあまり重点を置いていません。
したがって、この論文では、ラベル付きセットからの新しいクラスの発見を再考し、次の 2 つの主要な質問に焦点を当てます。
(ii) NCD の基本的な前提は、ラベル付きセットがラベルなしセットに関連付けられている必要があることですが、この関係をどのように測定できますか?
(i) については、NCD は、ラベルのないセットと意味的に非常に類似しているラベル付きのセットからより多くの恩恵を受けることができるという仮説を提案し、実証します。
具体的には、階層的なクラス構造を活用することにより、ImageNet 上のラベル付き/ラベルなしデータセット間の意味的類似性の程度が異なる広範な大規模なベンチマークを確立します。
対照的に、既存の NCD ベンチマークは、カテゴリと画像の数が異なるラベル付きセットに基づいて開発されており、意味関係を完全に無視しています。
(ii) については、ラベル付きセットとラベルなしセットの間の意味的類似性を定量化するための数学的定義を導入します。
さらに、このメトリックを使用して、提案されたベンチマークの有効性を確認し、それが NCD パフォーマンスと高度に相関していることを示します。
さらに、定量分析がなければ、以前の研究では、ラベル情報が常に有益であると一般的に信じられていました。
ただし、直感に反して、我々の実験結果は、ラベルを使用すると、類似性の低い設定で次善の結果につながる可能性があることを示しています。
要約(オリジナル)
Novel class discovery (NCD) aims to infer novel categories in an unlabeled dataset leveraging prior knowledge of a labeled set comprising disjoint but related classes. Existing research focuses primarily on utilizing the labeled set at the methodological level, with less emphasis on the analysis of the labeled set itself. Thus, in this paper, we rethink novel class discovery from the labeled set and focus on two core questions: (i) Given a specific unlabeled set, what kind of labeled set can best support novel class discovery? (ii) A fundamental premise of NCD is that the labeled set must be related to the unlabeled set, but how can we measure this relation? For (i), we propose and substantiate the hypothesis that NCD could benefit more from a labeled set with a large degree of semantic similarity to the unlabeled set. Specifically, we establish an extensive and large-scale benchmark with varying degrees of semantic similarity between labeled/unlabeled datasets on ImageNet by leveraging its hierarchical class structure. As a sharp contrast, the existing NCD benchmarks are developed based on labeled sets with different number of categories and images, and completely ignore the semantic relation. For (ii), we introduce a mathematical definition for quantifying the semantic similarity between labeled and unlabeled sets. In addition, we use this metric to confirm the validity of our proposed benchmark and demonstrate that it highly correlates with NCD performance. Furthermore, without quantitative analysis, previous works commonly believe that label information is always beneficial. However, counterintuitively, our experimental results show that using labels may lead to sub-optimal outcomes in low-similarity settings.
arxiv情報
著者 | Ziyun Li,Jona Otholt,Ben Dai,Di hu,Christoph Meinel,Haojin Yang |
発行日 | 2022-09-19 15:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google