要約
膨大な数の強力な事前トレーニング済みモデル ファミリ (ResNet/DeiT など) を含む公開モデル動物園は、これまでにない規模に達しており、ディープ ラーニングの成功に大きく貢献しています。
各モデル ファミリは、さまざまなスケール (DeiT-Ti/S/B など) の事前トレーニング済みモデルで構成されているため、動的な精度と効率のトレードオフのために、これらのすぐに利用可能なモデルをファミリで効率的に組み立てる方法についての基本的な問題が自然に生じます。
ランタイム。
この目的のために、モデル展開のためのスケーラブルで効率的な新しいフレームワークである、Stitchable Neural Networks (SN-Net) を紹介します。
アンカーと呼ばれる事前学習済みのニューラル ネットワークのファミリを使用して、さまざまな複雑さとパフォーマンスのトレードオフを持つ多数のネットワークを安価に生成します。
具体的には、SN-Net はアンカーをブロック/レイヤー全体に分割し、単純なステッチ レイヤーでそれらをステッチして、あるアンカーから別のアンカーへのアクティベーションをマッピングします。
わずか数エポックのトレーニングで、SN-Net はさまざまなスケールのアンカーのパフォーマンスを効果的に補間します。
実行時に、SN-Net はステッチング位置を切り替えることにより、動的なリソースの制約に即座に適応できます。
ImageNet 分類に関する広範な実験により、SN-Net は、さまざまな展開シナリオをサポートしながら、多くの個別にトレーニングされたネットワークよりも同等またはそれ以上のパフォーマンスを得ることができることが実証されています。
たとえば、Swin Transformers をステッチすることで、ティム モデル ズーの何百ものモデルに 1 つのネットワークで挑戦します。
この新しい弾性モデルのフレームワークは、より広いコミュニティでのさらなる研究のための強力なベースラインとして役立つと信じています。
要約(オリジナル)
The public model zoo containing enormous powerful pretrained model families (e.g., ResNet/DeiT) has reached an unprecedented scope than ever, which significantly contributes to the success of deep learning. As each model family consists of pretrained models with diverse scales (e.g., DeiT-Ti/S/B), it naturally arises a fundamental question of how to efficiently assemble these readily available models in a family for dynamic accuracy-efficiency trade-offs at runtime. To this end, we present Stitchable Neural Networks (SN-Net), a novel scalable and efficient framework for model deployment. It cheaply produces numerous networks with different complexity and performance trade-offs given a family of pretrained neural networks, which we call anchors. Specifically, SN-Net splits the anchors across the blocks/layers and then stitches them together with simple stitching layers to map the activations from one anchor to another. With only a few epochs of training, SN-Net effectively interpolates between the performance of anchors with varying scales. At runtime, SN-Net can instantly adapt to dynamic resource constraints by switching the stitching positions. Extensive experiments on ImageNet classification demonstrate that SN-Net can obtain on-par or even better performance than many individually trained networks while supporting diverse deployment scenarios. For example, by stitching Swin Transformers, we challenge hundreds of models in Timm model zoo with a single network. We believe this new elastic model framework can serve as a strong baseline for further research in wider communities.
arxiv情報
著者 | Zizheng Pan,Jianfei Cai,Bohan Zhuang |
発行日 | 2023-03-28 11:09:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google