要約
事前トレーニングと微調整のパラダイムは、深層学習モデルを展開するための基礎を築きました。
ただし、ほとんどの微調整方法は、特定のリソース予算を満たすように設計されています。
最近、さまざまなリソース予算による多様な展開シナリオを考慮して、モデル ステッチングを介してモデル ファミリー内の事前トレーニング済みモデル (アンカー) から多数の新しいネットワーク (ステッチ) を迅速に取得するために、ステッチ可能ニューラル ネットワーク (SN-Net) が導入されました。
SN-Net は有望ではありますが、新しいターゲット ドメインに適応させる際に、膨大なメモリとストレージの要件や、最適ではない長時間にわたる多段階の適応プロセスなど、新たな課題に直面します。
この研究では、さまざまなリソース制約に従う微調整モデルのパレットを効率的に生成するための新しいフレームワークである Efficient Stitchable Task Adaptation (ESTA) を紹介します。
具体的には、まずパラメータ効率の良い微調整を調整して、独立したバイアス項を維持しながら低ランクの更新をステッチ間で共有します。
このようにして、微調整メモリの負担を大幅に軽減し、タスクの適応時に発生するステッチ間の干渉を軽減します。
さらに、トレーニング時の勾配統計を使用してデプロイする重要なステッチを推定する、シンプルかつ効果的な 1 段階のデプロイメント パイプラインを合理化します。
重要なステッチに高いサンプリング確率を割り当てることで、パレート フロンティアも向上します。
25 の下流の視覚認識タスクに関する広範な実験により、当社の ESTA は精度と効率の滑らかなトレードオフでステッチを生成でき、大幅に短いトレーニング時間とより少ないトレーニング可能なパラメータで直接 SN-Net 適応を顕著なマージンで上回っていることが実証されました。
さらに、LLaMA ファミリーから LLM をステッチし、さまざまなサイズのチャットボット ステッチを取得することで、ESTA フレームワークの柔軟性と拡張性を実証します。
要約(オリジナル)
The paradigm of pre-training and fine-tuning has laid the foundation for deploying deep learning models. However, most fine-tuning methods are designed to meet a specific resource budget. Recently, considering diverse deployment scenarios with various resource budgets, stitchable neural network (SN-Net) is introduced to quickly obtain numerous new networks (stitches) from the pre-trained models (anchors) in a model family via model stitching. Although promising, SN-Net confronts new challenges when adapting it to new target domains, including huge memory and storage requirements and a long and sub-optimal multistage adaptation process. In this work, we present a novel framework, Efficient Stitchable Task Adaptation (ESTA), to efficiently produce a palette of fine-tuned models that adhere to diverse resource constraints. Specifically, we first tailor parameter-efficient fine-tuning to share low-rank updates among the stitches while maintaining independent bias terms. In this way, we largely reduce fine-tuning memory burdens and mitigate the interference among stitches that arises in task adaptation. Furthermore, we streamline a simple yet effective one-stage deployment pipeline, which estimates the important stitches to deploy with training-time gradient statistics. By assigning higher sampling probabilities to important stitches, we also get a boosted Pareto frontier. Extensive experiments on 25 downstream visual recognition tasks demonstrate that our ESTA is capable of generating stitches with smooth accuracy-efficiency trade-offs and surpasses the direct SN-Net adaptation by remarkable margins with significantly lower training time and fewer trainable parameters. Furthermore, we demonstrate the flexibility and scalability of our ESTA framework by stitching LLMs from LLaMA family, obtaining chatbot stitches of assorted sizes.
arxiv情報
著者 | Haoyu He,Zizheng Pan,Jing Liu,Jianfei Cai,Bohan Zhuang |
発行日 | 2023-11-29 04:31:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google