要約
コアセットの選択は、CNNの学習時間を短縮する最も効果的な方法の一つであるが、コアセットのサイズ、データセットやモデルの選択のバリエーションによって、結果としてのモデルがどのように振る舞うかについては、限られたことしか分かっていない。さらに、最近の変換器ベースのモデルへのパラダイムシフトを考えると、コアセットの選択がその性能にどのような影響を与えるかは、まだ未解決の問題である。コアセット選択法が広く受け入れられるためには、いくつかの類似した興味深い質問に答える必要があり、本論文はこれらの質問のいくつかに答えることを試みている。我々は系統的なベンチマーク設定を提示し、CNNとトランスフォーマーにおける異なるコアセット選択方法の厳密な比較を行う。我々の調査により、ある状況下では、サブセットのランダムな選択は、SOTA選択方法と比較して、よりロバストで安定的であることが明らかになった。我々は、データの様々なクラスにわたって均一なサブセットサンプリングという従来のコンセプトが適切な選択ではないことを実証した。むしろサンプルは、各クラスのデータ分布の複雑さに基づいて、適応的に選択されるべきである。トランスフォーマーは一般に大規模なデータセットで事前学習されるが、ある種のターゲットデータセットでは、非常に小さなコアセットサイズでも性能を安定させることができることを示す。さらに、事前学習を行わない場合、あるいは事前学習した変換モデルを非自然画像(医療データなど)に使用する場合、CNNは非常に小さなコアセットサイズでも変換器よりも汎化する傾向があることを示す。最後に、適切な事前学習がない場合、CNNは画像内の空間的に離れたオブジェクト間の意味的な一貫性を学習するのに優れており、これらはコアセットサイズのほぼすべての選択において変換器よりも優れている傾向があることを実証する。
要約(オリジナル)
Coreset selection is among the most effective ways to reduce the training time of CNNs, however, only limited is known on how the resultant models will behave under variations of the coreset size, and choice of datasets and models. Moreover, given the recent paradigm shift towards transformer-based models, it is still an open question how coreset selection would impact their performance. There are several similar intriguing questions that need to be answered for a wide acceptance of coreset selection methods, and this paper attempts to answer some of these. We present a systematic benchmarking setup and perform a rigorous comparison of different coreset selection methods on CNNs and transformers. Our investigation reveals that under certain circumstances, random selection of subsets is more robust and stable when compared with the SOTA selection methods. We demonstrate that the conventional concept of uniform subset sampling across the various classes of the data is not the appropriate choice. Rather samples should be adaptively chosen based on the complexity of the data distribution for each class. Transformers are generally pretrained on large datasets, and we show that for certain target datasets, it helps to keep their performance stable at even very small coreset sizes. We further show that when no pretraining is done or when the pretrained transformer models are used with non-natural images (e.g. medical data), CNNs tend to generalize better than transformers at even very small coreset sizes. Lastly, we demonstrate that in the absence of the right pretraining, CNNs are better at learning the semantic coherence between spatially distant objects within an image, and these tend to outperform transformers at almost all choices of the coreset size.
arxiv情報
著者 | Animesh Gupta,Irtiza Hassan,Dilip K. Prasad,Deepak K. Gupta |
発行日 | 2023-03-03 17:24:39+00:00 |
arxivサイト | arxiv_id(pdf) |