The Augmented Image Prior: Distilling 1000 Classes by Extrapolating from a Single Image

要約

入力として画像が 1 つしかない場合、ニューラル ネットワークは視覚世界について何を学習できるでしょうか?
どの画像も、存在するすべてのオブジェクト、シーン、および照明条件の多数を含むことは明らかに不可能ですが、256^(3x224x224) の可能なすべての 224 サイズの正方形の画像のスペース内に、自然画像の強力な優先順位を提供する可能性があります。
この「拡張画像事前」仮説を分析するために、単一の画像を使用してゼロからニューラル ネットワークをトレーニングするための単純なフレームワークと、教師付きの事前トレーニング済み教師からの知識蒸留を使用した拡張を開発しました。
これにより、上記の質問に対する答えは、「驚くほどたくさん」であることがわかります。
定量的には、CIFAR-10/100 で 94%/74%、ImageNet で 69%、この方法をビデオとオーディオに拡張することで、Kinetics-400 で 51%、SpeechCommands で 84% の精度が得られます。
13 のデータセットにまたがる大規模な分析では、増強の効果、データの選択、およびネットワーク アーキテクチャを解きほぐし、これまで一度も見たことのないネットワークの明快な「パンダ ニューロン」を含む定性的な評価も提供します。

要約(オリジナル)

What can neural networks learn about the visual world when provided with only a single image as input? While any image obviously cannot contain the multitudes of all existing objects, scenes and lighting conditions – within the space of all 256^(3x224x224) possible 224-sized square images, it might still provide a strong prior for natural images. To analyze this `augmented image prior’ hypothesis, we develop a simple framework for training neural networks from scratch using a single image and augmentations using knowledge distillation from a supervised pretrained teacher. With this, we find the answer to the above question to be: `surprisingly, a lot’. In quantitative terms, we find accuracies of 94%/74% on CIFAR-10/100, 69% on ImageNet, and by extending this method to video and audio, 51% on Kinetics-400 and 84% on SpeechCommands. In extensive analyses spanning 13 datasets, we disentangle the effect of augmentations, choice of data and network architectures and also provide qualitative evaluations that include lucid `panda neurons’ in networks that have never even seen one.

arxiv情報

著者 Yuki M. Asano,Aaqib Saeed
発行日 2023-01-24 16:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク