Fine-grained Recognition with Learnable Semantic Data Augmentation

要約

細粒度画像認識は、同じメタカテゴリ内の複数の下位カテゴリに属するオブジェクトを区別することに焦点を当てた、長年にわたるコンピュータビジョンの課題である。同じメタカテゴリに属する画像は通常、似たような視覚的外観を共有しているため、識別的な視覚的手がかりを採掘することが、細かなカテゴリを区別する鍵となる。一般的に使用されている画像レベルのデータ補強技術は、一般的な画像分類問題では大きな成功を収めているが、そのランダムな編集領域の動作は、微妙な領域に存在する識別的な視覚的手がかりを破壊しやすいため、細かなシナリオに適用されることはほとんどない。本論文では、学習データを特徴レベルで多様化することで、識別領域の損失問題を緩和することを提案する。具体的には、意味的に意味のある方向に沿って画像特徴を変換することで、多様化された拡張サンプルを生成する。この意味方向は共分散予測ネットワークを用いて推定され、サンプル単位の共分散行列を予測することで、細粒度画像に固有のクラス内変動の大きさに適応する。さらに、共分散予測ネットワークは、退化解問題を緩和するために、メタ学習方式で分類ネットワークと共同で最適化される。4つの競合する細粒度認識ベンチマーク(CUB-200-2011, Stanford Cars, FGVC Aircrafts, NABirds)を用いた実験により、我々の手法が、いくつかの一般的な分類ネットワーク(ResNets, DenseNets, EfficientNets, RegNets, ViTなど)において、汎化性能を大幅に改善することが実証された。最近提案された手法と組み合わせることで、我々の意味データ増強手法はCUB-200-2011データセットにおいて最先端の性能を達成した。ソースコードを公開する予定である。

要約(オリジナル)

Fine-grained image recognition is a longstanding computer vision challenge that focuses on differentiating objects belonging to multiple subordinate categories within the same meta-category. Since images belonging to the same meta-category usually share similar visual appearances, mining discriminative visual cues is the key to distinguishing fine-grained categories. Although commonly used image-level data augmentation techniques have achieved great success in generic image classification problems, they are rarely applied in fine-grained scenarios, because their random editing-region behavior is prone to destroy the discriminative visual cues residing in the subtle regions. In this paper, we propose diversifying the training data at the feature-level to alleviate the discriminative region loss problem. Specifically, we produce diversified augmented samples by translating image features along semantically meaningful directions. The semantic directions are estimated with a covariance prediction network, which predicts a sample-wise covariance matrix to adapt to the large intra-class variation inherent in fine-grained images. Furthermore, the covariance prediction network is jointly optimized with the classification network in a meta-learning manner to alleviate the degenerate solution problem. Experiments on four competitive fine-grained recognition benchmarks (CUB-200-2011, Stanford Cars, FGVC Aircrafts, NABirds) demonstrate that our method significantly improves the generalization performance on several popular classification networks (e.g., ResNets, DenseNets, EfficientNets, RegNets and ViT). Combined with a recently proposed method, our semantic data augmentation approach achieves state-of-the-art performance on the CUB-200-2011 dataset. The source code will be released.

arxiv情報

著者 Yifan Pu,Yizeng Han,Yulin Wang,Junlan Feng,Chao Deng,Gao Huang
発行日 2023-09-01 11:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク