UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

要約

ラージカーネル畳み込みニューラル ネットワーク (ConvNets) は最近、広範囲にわたる研究の注目を集めていますが、2 つの未解決の重大な問題についてはさらなる調査が必要です。
1) 既存の大規模カーネル ConvNet のアーキテクチャは、従来の ConvNet またはトランスフォーマーの設計原則にほぼ準拠していますが、大規模カーネル ConvNet のアーキテクチャ設計はまだ十分に対処されていません。
2) トランスフォーマーが複数のモダリティを支配しているため、ConvNet が視覚を超えた領域でも強力な普遍的認識能力を備えているかどうかはまだ調査されていません。
本稿では 2 つの側面から貢献します。
1) 我々は、大規模カーネル ConvNet を設計するための 4 つのアーキテクチャ ガイドラインを提案します。その核心は、小規模カーネルと区別する大規模カーネルの本質的な特性を活用することです。つまり、深くならずに広く見ることができます。
このようなガイドラインに従って、私たちが提案するラージカーネル ConvNet は、画像認識において優れたパフォーマンス (ImageNet 精度 88.0%、ADE20K mIoU 55.6%、COCO box AP 56.4%) を示し、最近の強力な競合他社よりも優れたパフォーマンスと高速性を示しています。
2) 大規模なカーネルが、もともと熟練していないドメインで ConvNet の卓越したパフォーマンスを発揮する鍵であることを発見しました。
特定のモダリティ関連の前処理アプローチを使用すると、提案されたモデルは、アーキテクチャをモダリティ固有にカスタマイズしなくても、時系列予測および音声認識タスクで最先端のパフォーマンスを達成します。
すべてのコードとモデルは GitHub と Huggingface で公開されています。

要約(オリジナル)

Large-kernel convolutional neural networks (ConvNets) have recently received extensive research attention, but two unresolved and critical issues demand further investigation. 1) The architectures of existing large-kernel ConvNets largely follow the design principles of conventional ConvNets or transformers, while the architectural design for large-kernel ConvNets remains under-addressed. 2) As transformers have dominated multiple modalities, it remains to be investigated whether ConvNets also have a strong universal perception ability in domains beyond vision. In this paper, we contribute from two aspects. 1) We propose four architectural guidelines for designing large-kernel ConvNets, the core of which is to exploit the essential characteristics of large kernels that distinguish them from small kernels – they can see wide without going deep. Following such guidelines, our proposed large-kernel ConvNet shows leading performance in image recognition (ImageNet accuracy of 88.0%, ADE20K mIoU of 55.6%, and COCO box AP of 56.4%), demonstrating better performance and higher speed than the recent powerful competitors. 2) We discover large kernels are the key to unlocking the exceptional performance of ConvNets in domains where they were originally not proficient. With certain modality-related preprocessing approaches, the proposed model achieves state-of-the-art performance on time-series forecasting and audio recognition tasks even without modality-specific customization to the architecture. All the code and models are publicly available on GitHub and Huggingface.

arxiv情報

著者 Xiaohan Ding,Yiyuan Zhang,Yixiao Ge,Sijie Zhao,Lin Song,Xiangyu Yue,Ying Shan
発行日 2024-03-18 08:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク