要約
最近、トランスフォーマーおよび多層パーセプトロン (MLP) アーキテクチャは、さまざまなビジョン タスクで印象的な結果を達成しています。
ただし、これらの演算子を効果的に組み合わせて高性能なハイブリッド ビジュアル アーキテクチャを形成する方法は、依然として課題のままです。
この作業では、新しい統合アーキテクチャ検索アプローチを提案することにより、畳み込み、変換、および MLP の学習可能な組み合わせを研究します。
私たちのアプローチには、高性能ネットワークの検索を実現するための 2 つの主要な設計が含まれています。
まず、非常に異なる検索可能な演算子を統一された形式でモデル化し、同じ構成パラメーターのセットで演算子を特徴付けることができるようにします。
このようにして、全体的な検索スペースのサイズが大幅に縮小され、総検索コストが手頃な価格になります。
次に、さまざまなタイプのオペレーター間のギャップを軽減するために、コンテキストを意識したダウンサンプリング モジュール (DSM) を提案します。
私たちが提案するDSMは、さまざまなタイプのオペレーターの機能をより適切に適応させることができます。これは、高性能ハイブリッドアーキテクチャを識別するために重要です。
最後に、構成可能な演算子と DSM を統合された検索空間に統合し、強化学習ベースの検索アルゴリズムを使用して検索して、演算子の最適な組み合わせを完全に探索します。
この目的のために、ベースライン ネットワークを検索し、それをスケールアップして、以前の ConvNet や Transformer よりもはるかに優れた精度と効率を実現する UniNet という名前のモデル ファミリを取得します。
特に、当社の UniNet-B5 は ImageNet で 84.9% のトップ 1 精度を達成し、EfficientNet-B7 および BoTNet-T7 よりもそれぞれ 44% および 55% 少ない FLOP で優れています。
ImageNet-21K で事前トレーニングすることにより、UniNet-B6 は 87.4% を達成し、51% 少ない FLOP と 41% 少ないパラメーターで Swin-L を上回りました。
コードは https://github.com/Sense-X/UniNet で入手できます。
要約(オリジナル)
Recently, transformer and multi-layer perceptron (MLP) architectures have achieved impressive results on various vision tasks. However, how to effectively combine those operators to form high-performance hybrid visual architectures still remains a challenge. In this work, we study the learnable combination of convolution, transformer, and MLP by proposing a novel unified architecture search approach. Our approach contains two key designs to achieve the search for high-performance networks. First, we model the very different searchable operators in a unified form, and thus enable the operators to be characterized with the same set of configuration parameters. In this way, the overall search space size is significantly reduced, and the total search cost becomes affordable. Second, we propose context-aware downsampling modules (DSMs) to mitigate the gap between the different types of operators. Our proposed DSMs are able to better adapt features from different types of operators, which is important for identifying high-performance hybrid architectures. Finally, we integrate configurable operators and DSMs into a unified search space and search with a Reinforcement Learning-based search algorithm to fully explore the optimal combination of the operators. To this end, we search a baseline network and scale it up to obtain a family of models, named UniNets, which achieve much better accuracy and efficiency than previous ConvNets and Transformers. In particular, our UniNet-B5 achieves 84.9% top-1 accuracy on ImageNet, outperforming EfficientNet-B7 and BoTNet-T7 with 44% and 55% fewer FLOPs respectively. By pretraining on the ImageNet-21K, our UniNet-B6 achieves 87.4%, outperforming Swin-L with 51% fewer FLOPs and 41% fewer parameters. Code is available at https://github.com/Sense-X/UniNet.
arxiv情報
著者 | Jihao Liu,Xin Huang,Guanglu Song,Hongsheng Li,Yu Liu |
発行日 | 2022-09-12 13:14:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google