VanillaNet: the Power of Minimalism in Deep Learning

要約

基礎モデルの中心となるのは、コンピューター ビジョンと自然言語処理における驚くべき成功によって実証されている、「より多くのものは異なるものである」という哲学です。
ただし、最適化の課題と変圧器モデルの固有の複雑さにより、シンプルさへのパラダイム シフトが必要になります。
この研究では、デザインに優雅さを取り入れたニューラル ネットワーク アーキテクチャである VanillaNet を紹介します。
VanillaNet は、高度な深さ、ショートカット、セルフアテンションなどの複雑な操作を回避することで、驚くほど簡潔でありながら驚くほど強力です。
各層はコンパクトかつ簡単になるように慎重に作成されており、非線形活性化関数はトレーニング後に除去されて元のアーキテクチャが復元されます。
VanillaNet は、固有の複雑さという課題を克服し、リソースに制約のある環境に最適です。
理解しやすく非常に簡素化されたアーキテクチャにより、効率的な導入のための新たな可能性が開かれます。
広範な実験により、VanillaNet が有名なディープ ニューラル ネットワークやビジョン トランスフォーマーと同等のパフォーマンスを提供することが実証され、ディープ ラーニングにおけるミニマリズムの力が実証されました。
VanillaNet のこの先見の明のある旅は、状況を再定義し、基盤モデルの現状に挑戦し、エレガントで効果的なモデル設計への新しい道を切り開く大きな可能性を秘めています。
事前トレーニングされたモデルとコードは、https://github.com/huawei-noah/VanillaNet および https://gitee.com/mindspore/models/tree/master/research/cv/vanillanet で入手できます。

要約(オリジナル)

At the heart of foundation models is the philosophy of ‘more is different’, exemplified by the astonishing success in computer vision and natural language processing. However, the challenges of optimization and inherent complexity of transformer models call for a paradigm shift towards simplicity. In this study, we introduce VanillaNet, a neural network architecture that embraces elegance in design. By avoiding high depth, shortcuts, and intricate operations like self-attention, VanillaNet is refreshingly concise yet remarkably powerful. Each layer is carefully crafted to be compact and straightforward, with nonlinear activation functions pruned after training to restore the original architecture. VanillaNet overcomes the challenges of inherent complexity, making it ideal for resource-constrained environments. Its easy-to-understand and highly simplified architecture opens new possibilities for efficient deployment. Extensive experimentation demonstrates that VanillaNet delivers performance on par with renowned deep neural networks and vision transformers, showcasing the power of minimalism in deep learning. This visionary journey of VanillaNet has significant potential to redefine the landscape and challenge the status quo of foundation model, setting a new path for elegant and effective model design. Pre-trained models and codes are available at https://github.com/huawei-noah/VanillaNet and https://gitee.com/mindspore/models/tree/master/research/cv/vanillanet.

arxiv情報

著者 Hanting Chen,Yunhe Wang,Jianyuan Guo,Dacheng Tao
発行日 2023-05-23 12:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク