Frozen Feature Augmentation for Few-Shot Image Classification

要約

事前トレーニングされたビジョン モデルの出力、いわゆる「凍結特徴」に基づいて線形分類器または軽量モデルをトレーニングすると、多くのダウンストリームの少数ショット タスクで優れたパフォーマンスが得られます。
現在、凍結されたフィーチャはトレーニング中に変更されません。
一方、ネットワークがイメージ上で直接トレーニングされる場合、データ拡張は、実質的なオーバーヘッドなしでパフォーマンスを向上させる標​​準的なレシピになります。
この論文では、「凍結特徴拡張 (FroFA)」と呼ばれる、凍結特徴空間でのデータ拡張の適用を検討する少数ショット画像分類に関する広範なパイロット研究を実施し、合計 20 の拡張をカバーしています。
私たちの研究では、明るさなど一見単純な点単位の FroFA を採用することで、3 つのネットワーク アーキテクチャ、3 つの大規模な事前トレーニング データセット、および 8 つの転送データセットにわたって一貫して少数ショットのパフォーマンスを向上できることが実証されました。

要約(オリジナル)

Training a linear classifier or lightweight model on top of pretrained vision model outputs, so-called ‘frozen features’, leads to impressive performance on a number of downstream few-shot tasks. Currently, frozen features are not modified during training. On the other hand, when networks are trained directly on images, data augmentation is a standard recipe that improves performance with no substantial overhead. In this paper, we conduct an extensive pilot study on few-shot image classification that explores applying data augmentations in the frozen feature space, dubbed ‘frozen feature augmentation (FroFA)’, covering twenty augmentations in total. Our study demonstrates that adopting a deceptively simple pointwise FroFA, such as brightness, can improve few-shot performance consistently across three network architectures, three large pretraining datasets, and eight transfer datasets.

arxiv情報

著者 Andreas Bär,Neil Houlsby,Mostafa Dehghani,Manoj Kumar
発行日 2024-03-15 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク