要約
従来のきめの細かい画像分類は、通常、注釈付きのグラウンドトゥルースを使用した大規模なトレーニングサンプルに依存しています。
ただし、一部のサブカテゴリには、実際のアプリケーションで使用できるサンプルがほとんどない場合があります。
本論文では、多周波近傍(MFN)とダブルクロス変調(DCM)を使用した新しい数ショットのきめの細かい画像分類ネットワーク(FicNet)を提案します。
モジュールMFNは、空間ドメインと周波数ドメインで情報をキャプチャするために採用されています。
次に、自己相似性と多周波数成分が抽出され、多周波数構造表現が生成されます。
DCMは、バイクリスクロスコンポーネントとダブル3Dクロスアテンションコンポーネントを使用して、グローバルコンテキスト情報とカテゴリ間の微妙な関係をそれぞれ考慮して、埋め込みプロセスを調整します。
2つの数ショットタスクの3つのきめ細かいベンチマークデータセットでの包括的な実験により、FicNetが最先端の方法と比較して優れたパフォーマンスを発揮することが確認されました。
特に、「Caltech-UCSDBirds」と「StanfordCars」の2つのデータセットでの実験では、それぞれ93.17 \%と95.36 \%の分類精度を得ることができます。
それらは、一般的なきめの細かい画像分類方法が達成できるものよりもさらに高い。
要約(オリジナル)
Traditional fine-grained image classification typically relies on large-scale training samples with annotated ground-truth. However, some sub-categories may have few available samples in real-world applications. In this paper, we propose a novel few-shot fine-grained image classification network (FicNet) using multi-frequency Neighborhood (MFN) and double-cross modulation (DCM). Module MFN is adopted to capture the information in spatial domain and frequency domain. Then, the self-similarity and multi-frequency components are extracted to produce multi-frequency structural representation. DCM employs bi-crisscross component and double 3D cross-attention components to modulate the embedding process by considering global context information and subtle relationship between categories, respectively. The comprehensive experiments on three fine-grained benchmark datasets for two few-shot tasks verify that FicNet has excellent performance compared to the state-of-the-art methods. Especially, the experiments on two datasets, ‘Caltech-UCSD Birds’ and ‘Stanford Cars’, can obtain classification accuracy 93.17\% and 95.36\%, respectively. They are even higher than that the general fine-grained image classification methods can achieve.
arxiv情報
著者 | Hegui Zhu,Zhan Gao,Jiayi Wang,Yange Zhou,Chengqing Li |
発行日 | 2022-07-18 12:12:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google