Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers


画像分類の頼りになるモデルとして Vision Transformers の人気が高まるにつれ、元の ViT よりも効率的であると主張するアーキテクチャの変更が爆発的に増加しました。
この比較可能性のギャップに対処するために、当社では 30 を超えるモデルの包括的な分析を実施し、さまざまな性能指標を考慮してビジョン トランスフォーマーと関連アーキテクチャの効率を評価しています。
たとえば、より効率的であると主張する代替アプローチがいくつか存在するにもかかわらず、ViT は依然として複数の効率指標にわたってパレート最適であることがわかりました。
また、結果は、ハイブリッド アテンション CNN モデルが、推論メモリとパラメーターの数が少ない場合に特にうまく機能すること、また、画像サイズよりもモデル サイズをスケールする方が良いことも示しています。
さらに、FLOPS 数とトレーニング メモリの間に強い正の相関関係があることを明らかにし、理論的な測定値のみから必要な VRAM を推定できるようにしました。
コードとデータは https://github.com/tobna/WhatTransformerToFavor で公開しています。


The growing popularity of Vision Transformers as the go-to models for image classification has led to an explosion of architectural modifications claiming to be more efficient than the original ViT. However, a wide diversity of experimental conditions prevents a fair comparison between all of them, based solely on their reported results. To address this gap in comparability, we conduct a comprehensive analysis of more than 30 models to evaluate the efficiency of vision transformers and related architectures, considering various performance metrics. Our benchmark provides a comparable baseline across the landscape of efficiency-oriented transformers, unveiling a plethora of surprising insights. For example, we discover that ViT is still Pareto optimal across multiple efficiency metrics, despite the existence of several alternative approaches claiming to be more efficient. Results also indicate that hybrid attention-CNN models fare particularly well when it comes to low inference memory and number of parameters, and also that it is better to scale the model size, than the image size. Furthermore, we uncover a strong positive correlation between the number of FLOPS and the training memory, which enables the estimation of required VRAM from theoretical measurements alone. Thanks to our holistic evaluation, this study offers valuable insights for practitioners and researchers, facilitating informed decisions when selecting models for specific applications. We publicly release our code and data at https://github.com/tobna/WhatTransformerToFavor


著者 Tobias Christian Nauen,Sebastian Palacio,Andreas Dengel
発行日 2023-08-18 08:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク