An evaluation of pre-trained models for feature extraction in image classification

要約

近年、画像分類タスクの性能が大幅に向上している。この性能向上は、主に深層学習技術の採用によるものである。一般に、ディープラーニング技術は、大量の注釈付きデータセットを必要とするため、小規模なデータセットに適用する際の課題となっている。このような状況において、転移学習戦略は、これらの問題を克服するための有望な選択肢となっている。本研究の目的は、画像分類タスクにおける特徴抽出のための、異なる事前学習済みニューラルネットワークの性能を比較することである。我々は4つの画像データセットにおいて16種類の事前訓練済みモデルを評価した。その結果、CLIP-ViT-BとViT-H-14がデータセットに沿った最高の一般的性能を達成し、CLIP-ResNet50モデルは同程度の性能であったが、ばらつきが少ないことが示された。したがって、我々の研究は、画像分類タスクにおける特徴抽出のためのモデルの選択を支持する証拠を提供する。

要約(オリジナル)

In recent years, we have witnessed a considerable increase in performance in image classification tasks. This performance improvement is mainly due to the adoption of deep learning techniques. Generally, deep learning techniques demand a large set of annotated data, making it a challenge when applying it to small datasets. In this scenario, transfer learning strategies have become a promising alternative to overcome these issues. This work aims to compare the performance of different pre-trained neural networks for feature extraction in image classification tasks. We evaluated 16 different pre-trained models in four image datasets. Our results demonstrate that the best general performance along the datasets was achieved by CLIP-ViT-B and ViT-H-14, where the CLIP-ResNet50 model had similar performance but with less variability. Therefore, our study provides evidence supporting the choice of models for feature extraction in image classification tasks.

arxiv情報

著者 Erick da Silva Puls,Matheus V. Todescato,Joel L. Carbonera
発行日 2023-10-03 13:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク