要約
このホワイトペーパーでは、一般化されたカテゴリ発見(GCD)に対処します。これは、既知の各カテゴリからのラベル付きインスタンスの助けを借りて、潜在的に既知または未知のカテゴリからクラスタリングされていないデータをクラスタリングするタスクです。
従来の半教師の学習と比較して、GCDはラベル付きデータに表示されない新しいカテゴリからのものである可能性があるため、GCDはより困難です。
現在の最先端の方法は、通常、自己抵抗によって支援されたパラメトリック分類器を学習します。
効果的であるが、これらの方法では、表現学習とカテゴリの発見に不可欠なクラス固有のセマンティクスを発見するために、クロスインスタンスの類似性を使用していません。
この論文では、協会ベースのパラダイムを再訪し、データ内のセマンティックリレーションをキャプチャして学習するための以前の制約のある関連学習方法を提案します。
特に、既知のカテゴリからのラベル付きデータは、非標識データの関連付けに一意の事前を提供します。
事前のクラスタリング後の洗練としてのみを採用する以前の方法とは異なり、我々は前のプロセスに完全に組み込まれ、信頼できるグループ化の結果に関連性を制約させます。
推定されたセマンティックグループは、ノンパラメトリックプロトタイプのコントラストを通じて利用され、表現学習を強化します。
パラメトリック分類とノンパラメトリック分類の両方のさらなる組み合わせは、互いに補完され、既存の方法を大幅に上回るモデルにつながります。
複数のGCDベンチマークでは、広範な実験を実行し、提案された方法の有効性を検証します。
要約(オリジナル)
This paper addresses generalized category discovery (GCD), the task of clustering unlabeled data from potentially known or unknown categories with the help of labeled instances from each known category. Compared to traditional semi-supervised learning, GCD is more challenging because unlabeled data could be from novel categories not appearing in labeled data. Current state-of-the-art methods typically learn a parametric classifier assisted by self-distillation. While being effective, these methods do not make use of cross-instance similarity to discover class-specific semantics which are essential for representation learning and category discovery. In this paper, we revisit the association-based paradigm and propose a Prior-constrained Association Learning method to capture and learn the semantic relations within data. In particular, the labeled data from known categories provides a unique prior for the association of unlabeled data. Unlike previous methods that only adopts the prior as a pre or post-clustering refinement, we fully incorporate the prior into the association process, and let it constrain the association towards a reliable grouping outcome. The estimated semantic groups are utilized through non-parametric prototypical contrast to enhance the representation learning. A further combination of both parametric and non-parametric classification complements each other and leads to a model that outperforms existing methods by a significant margin. On multiple GCD benchmarks, we perform extensive experiments and validate the effectiveness of our proposed method.
arxiv情報
著者 | Menglin Wang,Zhun Zhong,Xiaojin Gong |
発行日 | 2025-02-13 17:13:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google