Scaling Backwards: Minimal Synthetic Pre-training?

要約

事前学習と転移学習は、現在のコンピュータビジョンシステムの重要な構成要素である。通常、事前学習は実世界の大規模な画像データセットを用いて行われるが、本稿ではこれが本当に必要かどうかを問う。そのために、ImageNet-1kの100万画像に近い性能を達成できる、最小限の純粋な合成事前学習データセットを探索する。そのようなデータセットを、摂動を持つ単一のフラクタルから構築する。これにより、3つの主要な発見が得られた。(i)最小限の合成画像でも事前学習が有効であり、ImageNet-1kのような大規模な事前学習データセットと同等の性能を持つことを示す。(ii)我々のデータセットに対して人工的なカテゴリを構築するための単一のパラメータを調査する。その結果、形状の違いは人間には区別できないが、強力な性能を得るためには重要であることがわかった。(iii)最後に、事前学習を成功させるための最小限の要件を調べる。驚くべきことに、合成画像を1kから1に大幅に削減することで、事前学習の性能が向上することがわかった。最後に、我々の方法を合成画像から実画像に拡張し、1枚の実画像が形状拡張により同様の事前学習効果を示すかどうかを確認する。その結果、グレースケール画像とアフィン変換を用いることで、実画像でも“逆スケール”が可能であることがわかった。

要約(オリジナル)

Pre-training and transfer learning are an important building block of current computer vision systems. While pre-training is usually performed on large real-world image datasets, in this paper we ask whether this is truly necessary. To this end, we search for a minimal, purely synthetic pre-training dataset that allows us to achieve performance similar to the 1 million images of ImageNet-1k. We construct such a dataset from a single fractal with perturbations. With this, we contribute three main findings. (i) We show that pre-training is effective even with minimal synthetic images, with performance on par with large-scale pre-training datasets like ImageNet-1k for full fine-tuning. (ii) We investigate the single parameter with which we construct artificial categories for our dataset. We find that while the shape differences can be indistinguishable to humans, they are crucial for obtaining strong performances. (iii) Finally, we investigate the minimal requirements for successful pre-training. Surprisingly, we find that a substantial reduction of synthetic images from 1k to 1 can even lead to an increase in pre-training performance, a motivation to further investigate “scaling backwards”. Finally, we extend our method from synthetic images to real images to see if a single real image can show similar pre-training effect through shape augmentation. We find that the use of grayscale images and affine transformations allows even real images to “scale backwards”.

arxiv情報

著者 Ryo Nakamura,Ryu Tadokoro,Ryosuke Yamada,Yuki M. Asano,Iro Laina,Christian Rupprecht,Nakamasa Inoue,Rio Yokota,Hirokatsu Kataoka
発行日 2024-08-01 16:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク