要約
属性分類は、画像領域内の特定の特徴を識別するために重要です。
ビジョン言語モデル (VLM) は、大規模なデータセットからの一般知識を活用することで、ゼロショット タスクで効果を発揮してきました。
最近の研究では、クラスごとのクエリを備えたトランスフォーマーベースのモデルがゼロショットのマルチラベル分類に効果的に対処できることが実証されています。
ただし、見える属性と見えない属性の間の関係の利用が不十分であるため、モデルは一般化可能性に欠けます。
さらに、属性分類には一般に多くの属性が含まれるため、モデルのスケーラビリティを維持することが困難になります。
これらの問題に対処するために、スーパークラスを利用してゼロショット属性分類のスケーラビリティと一般化性を強化する新しいフレームワークであるスーパークラス ガイド付きトランスフォーマー (SugaFormer) を提案します。
SugaFormer は、スーパークラスのクエリ初期化 (SQI) を採用してクエリの数を削減し、スーパークラスからの共通の意味情報を利用し、マルチコンテキスト デコーディング (MD) を組み込んで多様な視覚的キューを処理します。
一般化可能性を強化するために、VLM を利用した 2 つの知識伝達戦略を導入します。
トレーニング中は、スーパークラスのガイド付き整合性正則化 (SCR) が、スーパークラスのガイド付きプロンプトを使用してモデルの特徴を VLM と調整し、推論中に、ゼロショット取得ベースのスコア強化 (ZRSE) が、目に見えない属性の予測を洗練します。
広範な実験により、SugaFormer がゼロショットおよびクロスデータセット転送設定の下で、広く使用されている 3 つの属性分類ベンチマークにわたって最先端のパフォーマンスを達成することが実証されています。
私たちのコードは https://github.com/mlvlab/SugaFormer で入手できます。
要約(オリジナル)
Attribute classification is crucial for identifying specific characteristics within image regions. Vision-Language Models (VLMs) have been effective in zero-shot tasks by leveraging their general knowledge from large-scale datasets. Recent studies demonstrate that transformer-based models with class-wise queries can effectively address zero-shot multi-label classification. However, poor utilization of the relationship between seen and unseen attributes makes the model lack generalizability. Additionally, attribute classification generally involves many attributes, making maintaining the model’s scalability difficult. To address these issues, we propose Super-class guided transFormer (SugaFormer), a novel framework that leverages super-classes to enhance scalability and generalizability for zero-shot attribute classification. SugaFormer employs Super-class Query Initialization (SQI) to reduce the number of queries, utilizing common semantic information from super-classes, and incorporates Multi-context Decoding (MD) to handle diverse visual cues. To strengthen generalizability, we introduce two knowledge transfer strategies that utilize VLMs. During training, Super-class guided Consistency Regularization (SCR) aligns model’s features with VLMs using super-class guided prompts, and during inference, Zero-shot Retrieval-based Score Enhancement (ZRSE) refines predictions for unseen attributes. Extensive experiments demonstrate that SugaFormer achieves state-of-the-art performance across three widely-used attribute classification benchmarks under zero-shot, and cross-dataset transfer settings. Our code is available at https://github.com/mlvlab/SugaFormer.
arxiv情報
著者 | Sehyung Kim,Chanhyeong Yang,Jihwan Park,Taehoon Song,Hyunwoo J. Kim |
発行日 | 2025-01-16 17:09:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google