Extract More from Less: Efficient Fine-Grained Visual Recognition in Low-Data Regimes

要約

低データ領域におけるきめの細かい画像分類という新たなタスクは、クラスごとのトレーニング サンプルの量が非常に限られていることに加えて、クラス間の分散が低く、クラス内での変動が大きいことを前提としています。
ただし、きめの細かい分類と非常に希少なデータを別々に扱う従来の方法は、これら両方の過酷な条件が同時に存在する場合には非効率となる可能性があります。
この論文では、拡張および蒸留技術の力を活用して、この課題に対するディープ ニューラル ネットワークのパフォーマンスを強化することを目的とした、AD-Net と呼ばれる新しいフレームワークを紹介します。
具体的には、私たちのアプローチは、拡張サンプルの自己蒸留を通じて学習された特徴を洗練し、有害な過剰適合を軽減するように設計されています。
当社では、一般的な細粒画像分類ベンチマークに関する包括的な実験を実施しており、当社の AD-Net は、従来の微調整や最先端の​​低データ技術に比べて一貫した改善を実証しています。
驚くべきことに、利用可能な最小のデータを使用した場合、私たちのフレームワークは、標準の ResNet-50 と比較して最大 45 %、最も近い SOTA の次点と比較して最大 27 % の優れた相対精度の向上を示しています。
私たちのアプローチは実質的にアーキテクチャに依存せず、推論時に追加コストがゼロであることを強調します。
さらに、すべてのフレームワークのコンポーネントの影響に関する広範な調査を提供し、最適なパフォーマンスを達成する上での各コンポーネントの重要性を強調しています。
ソース コードとトレーニング済みモデルは、github.com/demidovd98/fgic_lowd で公開されています。

要約(オリジナル)

The emerging task of fine-grained image classification in low-data regimes assumes the presence of low inter-class variance and large intra-class variation along with a highly limited amount of training samples per class. However, traditional ways of separately dealing with fine-grained categorisation and extremely scarce data may be inefficient under both these harsh conditions presented together. In this paper, we present a novel framework, called AD-Net, aiming to enhance deep neural network performance on this challenge by leveraging the power of Augmentation and Distillation techniques. Specifically, our approach is designed to refine learned features through self-distillation on augmented samples, mitigating harmful overfitting. We conduct comprehensive experiments on popular fine-grained image classification benchmarks where our AD-Net demonstrates consistent improvement over traditional fine-tuning and state-of-the-art low-data techniques. Remarkably, with the smallest data available, our framework shows an outstanding relative accuracy increase of up to 45 % compared to standard ResNet-50 and up to 27 % compared to the closest SOTA runner-up. We emphasise that our approach is practically architecture-independent and adds zero extra cost at inference time. Additionally, we provide an extensive study on the impact of every framework’s component, highlighting the importance of each in achieving optimal performance. Source code and trained models are publicly available at github.com/demidovd98/fgic_lowd.

arxiv情報

著者 Dmitry Demidov,Abduragim Shtanchaev,Mihail Mihaylov,Mohammad Almansoori
発行日 2024-06-28 10:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク