SparseFormer: Sparse Visual Recognition via Limited Latent Tokens

要約

タイトル:SparseFormer:限られた潜在トークンを使用して、疎なビジュアル認識を実現する
要約:
– 人間の視覚認識は、すべての詳細を一様に処理するのではなく、わずかな視覚的手がかりにのみ注意を払うという疎なプロセスです。
– しかし、現在のほとんどのビジョンネットワークは、ピクセルやパッチなどのすべてのビジュアルユニットを均一に処理する密なパラダイムに従っています。
– 本論文では、この密なパラダイムに挑戦し、SparseFormerと呼ばれる新しい手法を提案して、終末から終末まで人間の疎なビジュアル認識を模倣します。
– SparseFormerは、元のピクセル空間の密なユニットの処理ではなく、疎な特徴サンプリング手順を使用して、潜在空間で非常に限られた数のトークン(最小で49)を使用して画像を表現する方法を学習します。
– そのため、SparseFormerは、画像空間でのほとんどの密な操作を回避し、はるかに低い計算コストで動作します。
– ImageNet分類ベンチマークデータセットでの実験により、SparseFormerが、従来のモデルに匹敵する性能を発揮しながら、より優れた精度スループットトレードオフを提供することが示されました。
– さらに、私たちのネットワークの設計は、低い計算コストで有望なパフォーマンスを発揮するビデオ分類にも容易に拡張できます。
– 私たちの研究が視覚モデリングの代替方法を提供し、疎なニューラルアーキテクチャに関するさらなる研究のインスピレーションとなることを望みます。コードはhttps://github.com/showlab/sparseformerで公開されます。

要約(オリジナル)

Human visual recognition is a sparse process, where only a few salient visual cues are attended to rather than traversing every detail uniformly. However, most current vision networks follow a dense paradigm, processing every single visual unit (e.g,, pixel or patch) in a uniform manner. In this paper, we challenge this dense paradigm and present a new method, coined SparseFormer, to imitate human’s sparse visual recognition in an end-to-end manner. SparseFormer learns to represent images using a highly limited number of tokens (down to 49) in the latent space with sparse feature sampling procedure instead of processing dense units in the original pixel space. Therefore, SparseFormer circumvents most of dense operations on the image space and has much lower computational costs. Experiments on the ImageNet classification benchmark dataset show that SparseFormer achieves performance on par with canonical or well-established models while offering better accuracy-throughput tradeoff. Moreover, the design of our network can be easily extended to the video classification with promising performance at lower computational costs. We hope that our work can provide an alternative way for visual modeling and inspire further research on sparse neural architectures. The code will be publicly available at https://github.com/showlab/sparseformer

arxiv情報

著者 Ziteng Gao,Zhan Tong,Limin Wang,Mike Zheng Shou
発行日 2023-04-07 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク