DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations

要約

低ラベル領域におけるマルチラベル画像認識は、大きな挑戦であり実用的意義のある課題である。これまでの研究では、限られた画像ラベルを補うために、テキスト空間と視覚空間の間のアライメントを学習することに焦点が当てられてきたが、高品質のマルチラベル注釈が少ないため、精度の低下に悩まされる可能性がある。本研究では、何百万もの補助的な画像とテキストのペアを用いて事前学習された、テキストと視覚の特徴間の強力なアライメントを活用する。我々は、部分ラベル認識とゼロショットマルチラベル認識に対応するための統一的なアプローチとして機能する、証拠誘導型デュアルコンテキスト最適化(DualCoOp++)と呼ばれる効率的で効果的なフレームワークを導入する。DualCoOp++では、言語入力(すなわちプロンプト)のパラメトリック成分として、ターゲットクラスに対する証拠的コンテキスト、肯定的コンテキスト、否定的コンテキストを別々にエンコードする。証拠となるコンテキストは、ターゲットクラスに関連する全ての視覚的コンテンツを発見することを目的とし、画像の空間領域から肯定的コンテキストと否定的コンテキストを集約するためのガイダンスとして機能し、類似カテゴリ間のより良い区別を可能にする。さらに、余分なパラメータやコストの必要性を回避しつつ、学習中にクラス間の相互作用を促進するWinner-Take-Allモジュールを導入する。DualCoOp++は、事前に学習された視覚言語フレームワークに対して、学習可能な追加オーバーヘッドを最小化するため、限られた注釈や未知のクラスさえも含むマルチラベル認識タスクへの迅速な適応を可能にする。2つの困難な低ラベル設定にわたる標準的なマルチラベル認識ベンチマークでの実験により、最先端の手法と比較して、本アプローチの優れた性能が実証された。

要約(オリジナル)

Multi-label image recognition in the low-label regime is a task of great challenge and practical significance. Previous works have focused on learning the alignment between textual and visual spaces to compensate for limited image labels, yet may suffer from reduced accuracy due to the scarcity of high-quality multi-label annotations. In this research, we leverage the powerful alignment between textual and visual features pretrained with millions of auxiliary image-text pairs. We introduce an efficient and effective framework called Evidence-guided Dual Context Optimization (DualCoOp++), which serves as a unified approach for addressing partial-label and zero-shot multi-label recognition. In DualCoOp++ we separately encode evidential, positive, and negative contexts for target classes as parametric components of the linguistic input (i.e., prompts). The evidential context aims to discover all the related visual content for the target class, and serves as guidance to aggregate positive and negative contexts from the spatial domain of the image, enabling better distinguishment between similar categories. Additionally, we introduce a Winner-Take-All module that promotes inter-class interaction during training, while avoiding the need for extra parameters and costs. As DualCoOp++ imposes minimal additional learnable overhead on the pretrained vision-language framework, it enables rapid adaptation to multi-label recognition tasks with limited annotations and even unseen classes. Experiments on standard multi-label recognition benchmarks across two challenging low-label settings demonstrate the superior performance of our approach compared to state-of-the-art methods.

arxiv情報

著者 Ping Hu,Ximeng Sun,Stan Sclaroff,Kate Saenko
発行日 2023-08-03 17:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク