Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning

要約

本論文では、CLIPのような事前学習された視覚言語モデル(VLM)をマルチラベル分類に適応させるために、事前学習された大規模言語モデル(LLM)の知識を用いてプロンプトを学習する、データフリーフレームワークと呼ばれる、学習データを必要としないマルチラベル画像認識のための新しいフレームワークを提案する。LLMに適切な質問を行うことで、対象物の特徴や文脈に関する包括的な知識を獲得し、プロンプトの学習に有用なテキスト記述を提供する。次に、マルチラベル依存性を考慮した階層的プロンプト学習法を提案する。この学習法では、対応するオブジェクトが類似の属性を示すか、または共起する可能性が高い場合に、カテゴリ固有のプロンプトトトークンのサブセットを共有する。CLIPの視覚的セマンティクスと言語的セマンティクスの間の顕著な整合性の恩恵を受けて、テキスト記述から学習された階層的プロンプトは、推論中に画像の分類を実行するために適用される。本フレームワークは、新しいカテゴリ認識のための、複数の事前学習済みモデル間の相乗効果を探索する新しい方法を提示する。3つの公開データセット(MS-COCO、VOC2007、NUS-WIDE)を用いた広範な実験により、我々の手法が最先端の手法よりも優れた結果を達成し、特にMS-COCOのmAPにおいてゼロショットマルチラベル認識手法を4.7%上回ることが実証された。

要約(オリジナル)

This paper proposes a novel framework for multi-label image recognition without any training data, called data-free framework, which uses knowledge of pre-trained Large Language Model (LLM) to learn prompts to adapt pretrained Vision-Language Model (VLM) like CLIP to multilabel classification. Through asking LLM by well-designed questions, we acquire comprehensive knowledge about characteristics and contexts of objects, which provides valuable text descriptions for learning prompts. Then we propose a hierarchical prompt learning method by taking the multi-label dependency into consideration, wherein a subset of category-specific prompt tokens are shared when the corresponding objects exhibit similar attributes or are more likely to co-occur. Benefiting from the remarkable alignment between visual and linguistic semantics of CLIP, the hierarchical prompts learned from text descriptions are applied to perform classification of images during inference. Our framework presents a new way to explore the synergies between multiple pre-trained models for novel category recognition. Extensive experiments on three public datasets (MS-COCO, VOC2007, and NUS-WIDE) demonstrate that our method achieves better results than the state-of-the-art methods, especially outperforming the zero-shot multi-label recognition methods by 4.7% in mAP on MS-COCO.

arxiv情報

著者 Shuo Yang,Zirui Shang,Yongqi Wang,Derong Deng,Hongwei Chen,Qiyuan Cheng,Xinxiao Wu
発行日 2024-03-02 13:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク