How Well Do Vision Transformers (VTs) Transfer To The Non-Natural Image Domain? An Empirical Study Involving Art Classification

要約

Vision Transformers(VT)は、画像のような高次元で空間的に組織化された入力を含む問題に関しては、Convolutional Neural Network(CNN)に代わる貴重な存在になりつつある。しかし、その転移学習(Transfer Learning: TL)特性はまだ十分に研究されておらず、これらの神経アーキテクチャがCNNと同様に異なるドメイン間で転移できるかどうかは完全には分かっていない。本論文では、有名なImageNetデータセットで事前学習されたVTが、非自然画像ドメインに転送可能な表現を学習するかどうかを研究する。そのために、よく研究されている3つの芸術分類問題を検討し、それらを4つの一般的なVTのTL可能性を研究するための代用として使用する。これらの性能は、いくつかのTL実験において、4つの一般的なCNNの性能と広範囲に比較される。その結果、VTは強い汎化特性を示し、これらのネットワークはCNNよりも強力な特徴抽出器であることが示された。

要約(オリジナル)

Vision Transformers (VTs) are becoming a valuable alternative to Convolutional Neural Networks (CNNs) when it comes to problems involving high-dimensional and spatially organized inputs such as images. However, their Transfer Learning (TL) properties are not yet well studied, and it is not fully known whether these neural architectures can transfer across different domains as well as CNNs. In this paper we study whether VTs that are pre-trained on the popular ImageNet dataset learn representations that are transferable to the non-natural image domain. To do so we consider three well-studied art classification problems and use them as a surrogate for studying the TL potential of four popular VTs. Their performance is extensively compared against that of four common CNNs across several TL experiments. Our results show that VTs exhibit strong generalization properties and that these networks are more powerful feature extractors than CNNs.

arxiv情報

著者 Vincent Tonkes,Matthia Sabatelli
発行日 2022-08-09 12:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク