Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment

要約

大規模な事前トレーニング済みビジョン言語モデル (VLM) は、ゼロショット分類に効果的であることが証明されています。
成功にもかかわらず、ほとんどの従来の VLM ベースの手法は、部分的なソース監視や理想的な語彙の仮定によって制限されており、オープンワールド シナリオを満たすことはほとんどありません。
このペーパーでは、注釈を付けずに幅広い語彙を前提とする、より挑戦的な設定である現実的なゼロショット分類を目指します。
この課題に対処するために、私たちは、自己学習しながらラベルなしデータから構造的意味情報を抽出する自己構造的意味アライメント (S^3A) フレームワークを提案します。
当社の S^3A フレームワークは、ラベルのないデータを繰り返しグループ化し、擬似監視の構造セマンティクスを導出する独自の Cluster-Vote-Prompt-Realign (CVPR) アルゴリズムを採用しています。
当社の CVPR プロセスには、画像の反復クラスタリング、語彙から最初のクラス候補を特定するための各クラスター内での投票、混乱を招く候補を識別するための大規模な言語モデルを使用した識別プロンプトの生成、構造的意味論的整合としての画像と語彙の再調整が含まれます。
最後に、教師と生徒の学習戦略を通じて、個人と構造の両方の意味論的整合性を備えた CLIP 画像エンコーダを自己学習することを提案します。
さまざまな一般的で詳細なベンチマークにわたる包括的な実験では、S^3A メソッドが既存の VLM ベースのアプローチに比べて大幅な改善をもたらし、CLIP に比べて平均 15% 以上の精度向上を達成していることが実証されました。
私たちのコード、モデル、プロンプトは https://github.com/sheng-eamath/S3A で公開されています。

要約(オリジナル)

Large-scale pre-trained Vision Language Models (VLMs) have proven effective for zero-shot classification. Despite the success, most traditional VLMs-based methods are restricted by the assumption of partial source supervision or ideal vocabularies, which rarely satisfy the open-world scenario. In this paper, we aim at a more challenging setting, Realistic Zero-Shot Classification, which assumes no annotation but instead a broad vocabulary. To address this challenge, we propose the Self Structural Semantic Alignment (S^3A) framework, which extracts the structural semantic information from unlabeled data while simultaneously self-learning. Our S^3A framework adopts a unique Cluster-Vote-Prompt-Realign (CVPR) algorithm, which iteratively groups unlabeled data to derive structural semantics for pseudo-supervision. Our CVPR process includes iterative clustering on images, voting within each cluster to identify initial class candidates from the vocabulary, generating discriminative prompts with large language models to discern confusing candidates, and realigning images and the vocabulary as structural semantic alignment. Finally, we propose to self-learn the CLIP image encoder with both individual and structural semantic alignment through a teacher-student learning strategy. Our comprehensive experiments across various generic and fine-grained benchmarks demonstrate that the S^3A method offers substantial improvements over existing VLMs-based approaches, achieving a more than 15% accuracy improvement over CLIP on average. Our codes, models, and prompts are publicly released at https://github.com/sheng-eatamath/S3A.

arxiv情報

著者 Sheng Zhang,Muzammal Naseer,Guangyi Chen,Zhiqiang Shen,Salman Khan,Kun Zhang,Fahad Khan
発行日 2023-08-24 17:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク