Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers

要約

画像分類の頼りになるモデルとして Vision Transformers の人気が高まるにつれ、元の ViT よりも効率的であると主張するアーキテクチャの変更が爆発的に増加しました。
しかし、実験条件は多岐にわたるため、報告された結果のみに基づいてすべてを公平に比較​​することはできません。
この比較可能性のギャップに対処するために、当社では 30 を超えるモデルの包括的な分析を実施し、さまざまな性能指標を考慮してビジョン トランスフォーマーと関連アーキテクチャの効率を評価しています。
当社のベンチマークは、効率重視の変圧器の全体にわたって比較可能なベースラインを提供し、驚くべき洞察を数多く明らかにします。
たとえば、より効率的であると主張する代替アプローチがいくつか存在するにもかかわらず、ViT は依然として複数の効率指標にわたってパレート最適であることがわかりました。
また、結果は、ハイブリッド アテンション CNN モデルが、推論メモリとパラメーターの数が少ない場合に特にうまく機能すること、また、画像サイズよりもモデル サイズをスケールする方が良いことも示しています。
さらに、FLOPS 数とトレーニング メモリの間に強い正の相関関係があることを明らかにし、理論的な測定値のみから必要な VRAM を推定できるようにしました。
私たちの総合的な評価のおかげで、この研究は実務者や研究者に貴重な洞察を提供し、特定のアプリケーション向けのモデルを選択する際の情報に基づいた意思決定を容易にします。
コードとデータは https://github.com/tobna/WhatTransformerToFavor で公開しています。

要約(オリジナル)

The growing popularity of Vision Transformers as the go-to models for image classification has led to an explosion of architectural modifications claiming to be more efficient than the original ViT. However, a wide diversity of experimental conditions prevents a fair comparison between all of them, based solely on their reported results. To address this gap in comparability, we conduct a comprehensive analysis of more than 30 models to evaluate the efficiency of vision transformers and related architectures, considering various performance metrics. Our benchmark provides a comparable baseline across the landscape of efficiency-oriented transformers, unveiling a plethora of surprising insights. For example, we discover that ViT is still Pareto optimal across multiple efficiency metrics, despite the existence of several alternative approaches claiming to be more efficient. Results also indicate that hybrid attention-CNN models fare particularly well when it comes to low inference memory and number of parameters, and also that it is better to scale the model size, than the image size. Furthermore, we uncover a strong positive correlation between the number of FLOPS and the training memory, which enables the estimation of required VRAM from theoretical measurements alone. Thanks to our holistic evaluation, this study offers valuable insights for practitioners and researchers, facilitating informed decisions when selecting models for specific applications. We publicly release our code and data at https://github.com/tobna/WhatTransformerToFavor

arxiv情報

著者 Tobias Christian Nauen,Sebastian Palacio,Andreas Dengel
発行日 2023-08-18 08:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク