要約
インテリジェントなマルチメディア分析の分野では、超細粒視覚分類 (Ultra-FGVC) が、より広範なカテゴリ内の複雑なサブカテゴリを区別する上で重要な役割を果たします。
ただし、カテゴリの下位分割の粒度が複雑であり、カテゴリごとに利用可能なデータが限られているため、このタスクは本質的に困難です。
これらの課題に対処するために、この研究では、Ultra-FGVC タスク用に特別に設計された識別表現を学習するための対比学習と自己蒸留を効果的に探索する先駆的なフレームワークである CSDNet を提案します。
CSDNet は、サブカテゴリ固有の不一致解析 (SSDP)、動的不一致学習 (DDL)、およびサブカテゴリ固有の不一致転送 (SSDT) という 3 つの主要モジュールで構成されており、インスタンス、機能、およびロジット予測レベルにわたるディープ モデルの一般化を集合的に強化します。
トレーニング サンプルの多様性を高めるために、SSDP モジュールはさまざまな視点から拡張サンプルを導入し、サブカテゴリ固有の不一致に焦点を当てます。
同時に、提案された DDL モジュールは、動的メモリ キューによって履歴の中間特徴を保存し、反復対比学習を通じて特徴学習空間を最適化します。
さらに、SSDT モジュールは、生のサンプルと拡張サンプルのロジット予測レベルでの新しい自己蒸留パラダイムによって開発されており、追加のアノテーションを必要とせずに、限られたトレーニング データの固有の構造から、よりサブカテゴリ固有の不一致の知識を効果的に蒸留します。
実験結果は、CSDNet が現在の最先端の Ultra-FGVC メソッドよりも優れたパフォーマンスを示し、Ultra-FGVC タスクに対処する際のその強力な有効性と適応性を強調しています。
要約(オリジナル)
In the field of intelligent multimedia analysis, ultra-fine-grained visual categorization (Ultra-FGVC) plays a vital role in distinguishing intricate subcategories within broader categories. However, this task is inherently challenging due to the complex granularity of category subdivisions and the limited availability of data for each category. To address these challenges, this work proposes CSDNet, a pioneering framework that effectively explores contrastive learning and self-distillation to learn discriminative representations specifically designed for Ultra-FGVC tasks. CSDNet comprises three main modules: Subcategory-Specific Discrepancy Parsing (SSDP), Dynamic Discrepancy Learning (DDL), and Subcategory-Specific Discrepancy Transfer (SSDT), which collectively enhance the generalization of deep models across instance, feature, and logit prediction levels. To increase the diversity of training samples, the SSDP module introduces augmented samples from different viewpoints to spotlight subcategory-specific discrepancies. Simultaneously, the proposed DDL module stores historical intermediate features by a dynamic memory queue, which optimizes the feature learning space through iterative contrastive learning. Furthermore, the SSDT module is developed by a novel self-distillation paradigm at the logit prediction level of raw and augmented samples, which effectively distills more subcategory-specific discrepancies knowledge from the inherent structure of limited training data without requiring additional annotations. Experimental results demonstrate that CSDNet outperforms current state-of-the-art Ultra-FGVC methods, emphasizing its powerful efficacy and adaptability in addressing Ultra-FGVC tasks.
arxiv情報
著者 | Ziye Fang,Xin Jiang,Hao Tang,Zechao Li |
発行日 | 2023-11-10 13:39:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google