Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification

要約

トレーニング中に現れなかったラベルを識別することは、マルチラベル ゼロショット学習として知られており、コンピューター ビジョンでは簡単なタスクではありません。
この目的を達成するために、最近の研究では、知識の蒸留によってビジョン言語事前トレーニング (VLP) モデルのマルチモーダルな知識を探索し、オープンな語彙方法で目に見えないラベルを認識できるようにすることが試みられています。
ただし、実験による証拠は、知識の蒸留が最適ではなく、目に見えないラベル予測でのパフォーマンス向上が限定的であることを示しています。
この論文では、オープン語彙マルチラベル分類のための事前トレーニング済み VLP モデルからマルチモーダル知識を探索するための、新しいクエリベースの知識共有パラダイムを提案します。
具体的には、学習可能なラベルに依存しないクエリ トークンのセットは、入力画像から重要な視覚知識を抽出するようにトレーニングされ、さらにすべてのラベル間で共有されるため、認識のための視覚的な手がかりとして関心のあるトークンを選択できるようになります。
さらに、堅牢なラベル埋め込みのための効果的なプロンプト プールを提案し、標準的なランキング学習を分類の形式に再定式化し、照合用の特徴ベクトルの大きさを可能にします。これはどちらもラベル認識に大きな利益をもたらします。
実験結果は、私たちのフレームワークがゼロショットタスクで最先端の手法よりも、NUS-WIDE および Open Images 上の mAP でそれぞれ 5.9% および 4.5% 大幅に優れていることを示しています。

要約(オリジナル)

Identifying labels that did not appear during training, known as multi-label zero-shot learning, is a non-trivial task in computer vision. To this end, recent studies have attempted to explore the multi-modal knowledge of vision-language pre-training (VLP) models by knowledge distillation, allowing to recognize unseen labels in an open-vocabulary manner. However, experimental evidence shows that knowledge distillation is suboptimal and provides limited performance gain in unseen label prediction. In this paper, a novel query-based knowledge sharing paradigm is proposed to explore the multi-modal knowledge from the pretrained VLP model for open-vocabulary multi-label classification. Specifically, a set of learnable label-agnostic query tokens is trained to extract critical vision knowledge from the input image, and further shared across all labels, allowing them to select tokens of interest as visual clues for recognition. Besides, we propose an effective prompt pool for robust label embedding, and reformulate the standard ranking learning into a form of classification to allow the magnitude of feature vectors for matching, which both significantly benefit label recognition. Experimental results show that our framework significantly outperforms state-of-the-art methods on zero-shot task by 5.9% and 4.5% in mAP on the NUS-WIDE and Open Images, respectively.

arxiv情報

著者 Xuelin Zhu,Jian Liu,Dongqi Tang,Jiawei Ge,Weijia Liu,Bo Liu,Jiuxin Cao
発行日 2024-01-02 12:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク