Stitchable Neural Networks

要約

膨大な数の強力な事前トレーニング済みモデル ファミリ (DeiT/Swin など) を含む公開モデル動物園は、これまでにない規模に達しており、ディープ ラーニングの成功に大きく貢献しています。
各モデル ファミリは、さまざまなスケール (DeiT-Ti/S/B など) の事前トレーニング済みモデルで構成されているため、動的な精度と効率のトレードオフのために、これらのすぐに利用可能なモデルをファミリで効果的に組み立てる方法についての根本的な問題が自然に生じます。
ランタイム。
この作業では、Stitchable Neural Networks (SN-Net) を紹介します。これは、複雑さとパフォーマンスのトレードオフが異なる多数のネットワークを安価に生成する、モデル展開のためのスケーラブルで効率的な新しいフレームワークです。
具体的には、SN-Net は、アンカーと呼ばれる事前トレーニング済みのニューラル ネットワークのファミリーをブロック/レイヤー全体に分割し、単純なステッチ レイヤーでそれらをつなぎ合わせて、1 つのアンカーから別のアンカーへのアクティベーションをマッピングします。
わずか数エポックのトレーニングで、SN-Net はさまざまなスケールのアンカーのパフォーマンスを効果的に補間します。
実行時に、SN-Net はステッチング位置を切り替えることにより、動的なリソースの制約に即座に適応できます。
さらに、効果的かつ効率的に SN-Net をトレーニングするための簡単な戦略と同様に、何を、どのように、どこでステッチするかについての包括的な研究を提供します。
ImageNet 分類に関する広範な実験により、SN-Net は、さまざまな展開シナリオをサポートしながら、多くの個別にトレーニングされたネットワークよりも同等またはそれ以上のパフォーマンスを得ることができることが実証されています。
たとえば、Swin Transformers をステッチすることで、ティム モデル ズーの何百ものモデルに 1 つのネットワークで挑戦します。
この新しい弾性モデルのフレームワークは、より広いコミュニティでのさらなる研究のための強力なベースラインとして役立つと信じています。

要約(オリジナル)

The public model zoo containing enormous powerful pretrained model families (e.g., DeiT/Swin) has reached an unprecedented scope than ever, which significantly contributes to the success of deep learning. As each model family consists of pretrained models with diverse scales (e.g., DeiT-Ti/S/B), it naturally arises a fundamental question of how to effectively assemble these readily available models in a family for dynamic accuracy-efficiency trade-offs at runtime. In this work, we present Stitchable Neural Networks (SN-Net), a novel scalable and efficient framework for model deployment which cheaply produces numerous networks with different complexity and performance trade-offs. Specifically, SN-Net splits a family of pretrained neural networks, which we call anchors, across the blocks/layers and then stitches them together with simple stitching layers to map the activations from one anchor to another. With only a few epochs of training, SN-Net effectively interpolates between the performance of anchors with varying scales. At runtime, SN-Net can instantly adapt to dynamic resource constraints by switching the stitching positions. Furthermore, we provide a comprehensive study on what, how and where to stitch as well as a simple strategy for effectively and efficiently training SN-Net. Extensive experiments on ImageNet classification demonstrate that SN-Net can obtain on-par or even better performance than many individually trained networks while supporting diverse deployment scenarios. For example, by stitching Swin Transformers, we challenge hundreds of models in Timm model zoo with a single network. We believe this new elastic model framework can serve as a strong baseline for further research in wider communities.

arxiv情報

著者 Zizheng Pan,Jianfei Cai,Bohan Zhuang
発行日 2023-02-13 18:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク