ConcatPlexer: Additional Dim1 Batching for Faster ViTs

要約

トランスフォーマーは、自然言語処理 (NLP) の分野だけでなく、コンピューター ビジョンの分野でも多大な成功を収め、さまざまな創造的なアプローチやアプリケーションを生み出してきました。
しかし、変圧器の優れた性能とモデリングの柔軟性は計算コストの大幅な増加を伴うため、いくつかの研究でこの負担を軽減する方法が提案されています。
もともと言語モデル用に提案されたコスト削減手法であるデータ多重化 (DataMUX) に触発され、精度をほとんど犠牲にすることなくスループットを大幅に向上させる追加の dim1 バッチ処理 (つまり、連結) を採用した効率的な視覚認識のための新しいアプローチを提案します。
まず、ビジョン モデル用の DataMux の単純な適応である Image Multiplexer を導入し、その弱点を克服する新しいコンポーネントを考案し、推論速度と精度の間のスイート スポットで最終モデルである ConcatPlexer をレンダリングします。
ConcatPlexer は ImageNet1K および CIFAR100 データセットでトレーニングされ、ViT-B/16 よりも 23.5% 少ない GFLOP を達成し、それぞれ 69.5% と 83.4% の検証精度を達成しました。

要約(オリジナル)

Transformers have demonstrated tremendous success not only in the natural language processing (NLP) domain but also the field of computer vision, igniting various creative approaches and applications. Yet, the superior performance and modeling flexibility of transformers came with a severe increase in computation costs, and hence several works have proposed methods to reduce this burden. Inspired by a cost-cutting method originally proposed for language models, Data Multiplexing (DataMUX), we propose a novel approach for efficient visual recognition that employs additional dim1 batching (i.e., concatenation) that greatly improves the throughput with little compromise in the accuracy. We first introduce a naive adaptation of DataMux for vision models, Image Multiplexer, and devise novel components to overcome its weaknesses, rendering our final model, ConcatPlexer, at the sweet spot between inference speed and accuracy. The ConcatPlexer was trained on ImageNet1K and CIFAR100 dataset and it achieved 23.5% less GFLOPs than ViT-B/16 with 69.5% and 83.4% validation accuracy, respectively.

arxiv情報

著者 Donghoon Han,Seunghyeon Seo,Donghyeon Jeon,Jiho Jang,Chaerin Kong,Nojun Kwak
発行日 2024-01-31 14:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク