ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy

要約

最新のコンピュータ ビジョンは、実務者に非常に多様なモデルを提供しており、特定のアプリケーションに対して複数のオプションからモデルを選択するのは困難な場合があります。
従来、競合するモデル アーキテクチャとトレーニング プロトコルは、ImageNet 上で分類精度によって比較されていました。
ただし、この 1 つの指標では、特殊なタスクに重要なパフォーマンスの微妙な違いを完全に把握することはできません。
この研究では、ConvNet アーキテクチャと Vision Transformer アーキテクチャの両方について、それぞれ教師ありトレーニング パラダイムと CLIP トレーニング パラダイムにわたって、ImageNet の精度を超えたモデルの動作の詳細な比較分析を実行します。
私たちが選択したモデルは、ImageNet の精度と計算要件が類似していますが、間違いの種類、出力キャリブレーション、転送可能性、特徴の不変性など、他の多くの側面で異なることがわかりました。
従来の指標では捉えられないモデル特性の多様性は、さまざまなモデルの中から選択する際に、より微妙な分析の必要性を浮き彫りにしています。
私たちのコードは https://github.com/karill-vish/Beyond-INet で入手できます。

要約(オリジナル)

Modern computer vision offers a great variety of models to practitioners, and selecting a model from multiple options for specific applications can be challenging. Conventionally, competing model architectures and training protocols are compared by their classification accuracy on ImageNet. However, this single metric does not fully capture performance nuances critical for specialized tasks. In this work, we conduct an in-depth comparative analysis of model behaviors beyond ImageNet accuracy, for both ConvNet and Vision Transformer architectures, each across supervised and CLIP training paradigms. Although our selected models have similar ImageNet accuracies and compute requirements, we find that they differ in many other aspects: types of mistakes, output calibration, transferability, and feature invariance, among others. This diversity in model characteristics, not captured by traditional metrics, highlights the need for more nuanced analysis when choosing among different models. Our code is available at https://github.com/kirill-vish/Beyond-INet.

arxiv情報

著者 Kirill Vishniakov,Zhiqiang Shen,Zhuang Liu
発行日 2024-07-23 16:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク