VidConv: A modernized 2D ConvNet for Efficient Video Recognition

要約

2020年に導入されて以来、Vision Transformers(ViT)は、多くのビジョンタスクの記録を着実に更新しており、ConvNetに代わる「必要なもの」とよく言われます。
それにもかかわらず、ViTは一般に計算能力が高く、メモリを消費し、組み込みデバイスには不向きです。
さらに、最近の調査によると、標準のConvNetは、適切に再設計およびトレーニングされた場合、精度とスケーラビリティの点でViTと有利に競合する可能性があります。
このホワイトペーパーでは、ConvNetの最新の構造を採用して、アクション認識の新しいバックボーンを設計します。
特に、私たちの主な目標は、標準操作のみがサポートされているFPGAボードなどの工業製品の展開に役立つことです。
したがって、私たちのネットワークは、3D畳み込み、長距離注意プラグイン、またはTransformerブロックを使用せずに、2D畳み込みで構成されています。
はるかに少ないエポック(5x-10x)でトレーニングされている間、バックボーンは(2 + 1)Dおよび3D畳み込みを使用する方法を上回り、2つのベンチマークデータセットでViTと同等の結果を達成します。

要約(オリジナル)

Since being introduced in 2020, Vision Transformers (ViT) has been steadily breaking the record for many vision tasks and are often described as “all-you-need’ to replace ConvNet. Despite that, ViTs are generally computational, memory-consuming, and unfriendly for embedded devices. In addition, recent research shows that standard ConvNet if redesigned and trained appropriately can compete favorably with ViT in terms of accuracy and scalability. In this paper, we adopt the modernized structure of ConvNet to design a new backbone for action recognition. Particularly, our main target is to serve for industrial product deployment, such as FPGA boards in which only standard operations are supported. Therefore, our network simply consists of 2D convolutions, without using any 3D convolution, long-range attention plugin, or Transformer blocks. While being trained with much fewer epochs (5x-10x), our backbone surpasses the methods using (2+1)D and 3D convolution, and achieve comparable results with ViT on two benchmark datasets.

arxiv情報

著者 Chuong H. Nguyen,Su Huynh,Vinh Nguyen,Ngoc Nguyen
発行日 2022-07-08 09:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク