CLIP-GCD: Simple Language Guided Generalized Category Discovery

要約

Generalized Category Discovery (GCD) では、既知のカテゴリーを分類するモデルと、ラベルのないデータ内の未知のカテゴリーをクラスター化するモデルが必要です。
従来の方法では、自己教師あり事前トレーニングとラベル付きデータの教師あり微調整を組み合わせた後、単純なクラスタリング手法を利用していました。
この論文では、そのような方法は依然として配布範囲外のカテゴリでパフォーマンスが低下する傾向があり、重要な要素であるオブジェクト カテゴリ間の意味論的な関係を利用していないと仮定します。
したがって、私たちは、2 つの補完的な方法でマルチモーダル (視覚と言語) モデルを活用することを提案します。
まず、ゼロショット パフォーマンスにヒントを得て、ユニモーダル機能を CLIP に置き換えることにより、強力なベースラインを確立します。
第二に、ラベル付きセットとラベルなしセットのテキスト コーパスからテキスト記述をマイニングすることにより、CLIP の整列された視覚言語表現を活用する、新しい検索ベースのメカニズムを提案します。
特に、CLIP の画像のビジュアル エンコーディングとコーパスのテキスト エンコーディングの間の位置合わせを使用して、上位 k 個の関連テキストを取得し、それらの埋め込みを組み込んで、画像 + テキストの結合半教師ありクラスタリングを実行します。
私たちは厳密な実験とアブレーション (どこから取得するか、どれだけ取得するか、情報をどのように組み合わせるかなど) を実行し、分布外ドメインを含むいくつかのデータセットで結果を検証し、最先端の結果を実証します。

要約(オリジナル)

Generalized Category Discovery (GCD) requires a model to both classify known categories and cluster unknown categories in unlabeled data. Prior methods leveraged self-supervised pre-training combined with supervised fine-tuning on the labeled data, followed by simple clustering methods. In this paper, we posit that such methods are still prone to poor performance on out-of-distribution categories, and do not leverage a key ingredient: Semantic relationships between object categories. We therefore propose to leverage multi-modal (vision and language) models, in two complementary ways. First, we establish a strong baseline by replacing uni-modal features with CLIP, inspired by its zero-shot performance. Second, we propose a novel retrieval-based mechanism that leverages CLIP’s aligned vision-language representations by mining text descriptions from a text corpus for the labeled and unlabeled set. We specifically use the alignment between CLIP’s visual encoding of the image and textual encoding of the corpus to retrieve top-k relevant pieces of text and incorporate their embeddings to perform joint image+text semi-supervised clustering. We perform rigorous experimentation and ablations (including on where to retrieve from, how much to retrieve, and how to combine information), and validate our results on several datasets including out-of-distribution domains, demonstrating state-of-art results.

arxiv情報

著者 Rabah Ouldnoughi,Chia-Wen Kuo,Zsolt Kira
発行日 2023-05-17 17:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク