要約
一般化されたカテゴリ発見(GCD)は、既知のカテゴリからの限定されたラベル付きデータを使用して、非標識データの既知と新しいカテゴリの両方を認識することを目的とする実用的で挑戦的なオープンワールドタスクです。
監督が不足しているため、以前のGCDメソッドは、混乱するインスタンスのエラーを修正することの難しさや、発見されたクラスターの意味的な意味を効果的に明らかにして活用できないなど、重大な課題に直面しています。
したがって、実際の適用性には通常、追加の注釈が必要です。
ただし、人間の注釈は非常に費用がかかり、非効率的です。
これらの問題に対処するために、GLEANを提案します。Gleanは、多様で品質強化されたLLMフィードバックから積極的に学習する一般化されたカテゴリ発見のための統一されたフレームワークであると提案します。
当社のアプローチは、次の3つの異なるタイプのLLMフィードバックを活用します。(1)インスタンスレベルのコントラスト機能を改善し、(2)カテゴリの説明を生成し、(3)不確実なインスタンスをLLM選択カテゴリの説明に合わせます。
広範な実験は、多様なデータセット、メトリック、監督設定にわたる最先端のモデルよりも\ MethodNameの優れた性能を示しています。
私たちのコードは、https://github.com/amazon-science/gleanで入手できます。
要約(オリジナル)
Generalized Category Discovery (GCD) is a practical and challenging open-world task that aims to recognize both known and novel categories in unlabeled data using limited labeled data from known categories. Due to the lack of supervision, previous GCD methods face significant challenges, such as difficulty in rectifying errors for confusing instances, and inability to effectively uncover and leverage the semantic meanings of discovered clusters. Therefore, additional annotations are usually required for real-world applicability. However, human annotation is extremely costly and inefficient. To address these issues, we propose GLEAN, a unified framework for generalized category discovery that actively learns from diverse and quality-enhanced LLM feedback. Our approach leverages three different types of LLM feedback to: (1) improve instance-level contrastive features, (2) generate category descriptions, and (3) align uncertain instances with LLM-selected category descriptions. Extensive experiments demonstrate the superior performance of \MethodName over state-of-the-art models across diverse datasets, metrics, and supervision settings. Our code is available at https://github.com/amazon-science/Glean.
arxiv情報
著者 | Henry Peng Zou,Siffi Singh,Yi Nian,Jianfeng He,Jason Cai,Saab Mansour,Hang Su |
発行日 | 2025-02-25 18:11:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google