要約
効率的な視覚バックボーンの研究は、畳み込みと変換ブロックを組み合わせたモデルに進化しています。
速度と精度のトレードオフで優れた性能を発揮するには、アーキテクチャ面とコンポーネント面の両方を賢く組み合わせることが必須です。
ほとんどの出版物は精度の最大化に焦点を当てており、効率の指標として MAC (積和演算) を利用しています。
ただし、後者では、メモリ アクセス コストや並列度などの要因により、モデルの実際の速度を正確に測定できないことがよくあります。
私たちは、一般的なモジュールとバックボーンのアーキテクチャ設計の選択を、MAC の観点からではなく、実際のスループットとレイテンシの観点から分析しました。後者の 2 つの組み合わせが、実際のアプリケーションにおけるモデルの効率をよりよく表すためです。
私たちは、その分析から得られた結論を適用して、マクロ設計におけるハードウェア効率を高めるためのレシピを作成しました。
さらに、私たちの分析と一致する、MultiHead Self-Attention のシンプルなスリム化バージョンを導入します。
私たちはマクロ設計とマイクロ設計の両方を組み合わせて、LowFormer と呼ばれるハードウェア効率の高いバックボーン ネットワークの新しいファミリーを作成します。
LowFormer は、現在の最先端の効率的なバックボーンと同等以上の精度を達成しながら、スループットと遅延の点で顕著な高速化を実現します。
ハードウェア効率の高い設計の汎用性を証明するために、GPU、モバイル GPU、および ARM CPU でメソッドを評価します。
さらに、下流タスクのオブジェクト検出とセマンティック セグメンテーションがハードウェア効率の高いアーキテクチャから利益を得ることを示します。
コードとモデルは https://github.com/altair199797/LowFormer で入手できます。
要約(オリジナル)
Research in efficient vision backbones is evolving into models that are a mixture of convolutions and transformer blocks. A smart combination of both, architecture-wise and component-wise is mandatory to excel in the speedaccuracy trade-off. Most publications focus on maximizing accuracy and utilize MACs (multiply accumulate operations) as an efficiency metric. The latter however often do not measure accurately how fast a model actually is due to factors like memory access cost and degree of parallelism. We analyzed common modules and architectural design choices for backbones not in terms of MACs, but rather in actual throughput and latency, as the combination of the latter two is a better representation of the efficiency of models in real applications. We applied the conclusions taken from that analysis to create a recipe for increasing hardware-efficiency in macro design. Additionally we introduce a simple slimmed-down version of MultiHead Self-Attention, that aligns with our analysis. We combine both macro and micro design to create a new family of hardware-efficient backbone networks called LowFormer. LowFormer achieves a remarkable speedup in terms of throughput and latency, while achieving similar or better accuracy than current state-of-the-art efficient backbones. In order to prove the generalizability of our hardware-efficient design, we evaluate our method on GPU, mobile GPU and ARM CPU. We further show that the downstream tasks object detection and semantic segmentation profit from our hardware-efficient architecture. Code and models are available at https://github.com/ altair199797/LowFormer.
arxiv情報
著者 | Moritz Nottebaum,Matteo Dunnhofer,Christian Micheloni |
発行日 | 2024-09-05 12:18:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google