要約
従来のきめの細かい画像分類は通常、注釈付きのグラウンド トゥルースを含む大規模なトレーニング サンプルに依存しています。
ただし、一部のサブカテゴリには、実際のアプリケーションで使用できるサンプルがほとんどなく、現在の少数ショット モデルでは、きめの細かいカテゴリ間の微妙な違いを区別することが依然として困難です。
この課題を解決するために、マルチ周波数近傍 (MFN) と二重混変調 (DCM) を使用した新しい少数ショットのきめの細かい画像分類ネットワーク (FicNet) を提案します。
MFN は、空間ドメインと周波数ドメインの両方に焦点を当てて、多周波数構造表現をキャプチャします。これにより、クラス内距離に対する外観と背景の変化の影響が軽減されます。
DCM は、bi-crisscross コンポーネントと double 3D cross-attention コンポーネントで構成されています。
グローバル コンテキスト情報とクラス間の関係をそれぞれ考慮して表現を調整します。これにより、サポート サンプルとクエリ サンプルが同じ部分に応答し、微妙なクラス間の違いを正確に識別できるようになります。
2 つの少数ショット タスクに対する 3 つのきめの細かいベンチマーク データセットに関する包括的な実験により、FicNet が最先端の方法と比較して優れたパフォーマンスを発揮することが確認されました。
特に、「Caltech-UCSD Birds」と「Stanford Cars」の 2 つのデータセットに対する実験では、それぞれ 93.17\% と 95.36\% の分類精度を得ることができます。
それらは、一般的なきめの細かい画像分類方法が達成できるよりもさらに高いものです。
要約(オリジナル)
Traditional fine-grained image classification typically relies on large-scale training samples with annotated ground-truth. However, some sub-categories have few available samples in real-world applications, and current few-shot models still have difficulty in distinguishing subtle differences among fine-grained categories. To solve this challenge, we propose a novel few-shot fine-grained image classification network (FicNet) using multi-frequency neighborhood (MFN) and double-cross modulation (DCM). MFN focuses on both spatial domain and frequency domain to capture multi-frequency structural representations, which reduces the influence of appearance and background changes to the intra-class distance. DCM consists of bi-crisscross component and double 3D cross-attention component. It modulates the representations by considering global context information and inter-class relationship respectively, which enables the support and query samples respond to the same parts and accurately identify the subtle inter-class differences. The comprehensive experiments on three fine-grained benchmark datasets for two few-shot tasks verify that FicNet has excellent performance compared to the state-of-the-art methods. Especially, the experiments on two datasets, ‘Caltech-UCSD Birds’ and ‘Stanford Cars’, can obtain classification accuracy 93.17\% and 95.36\%, respectively. They are even higher than that the general fine-grained image classification methods can achieve.
arxiv情報
著者 | Hegui Zhu,Zhan Gao,Jiayi Wang,Yange Zhou,Chengqing Li |
発行日 | 2022-10-26 13:26:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google