MCNC: Manifold Constrained Network Compression

要約

コンピュータービジョンから音声、自然言語処理に至るまで、さまざまなタスクにわたる大規模な基礎モデルの優れたパフォーマンスにより、その需要が大幅に増加しました。
ただし、これらのモデルの保存と送信は、その巨大なサイズ (GPT-3 の場合は 350GB など) のため、重大な課題を引き起こします。
最近の文献では、元の重みを圧縮するか、これらのモデルを微調整するために必要なパラメータの数を減らすことに重点が置かれています。
これらの圧縮方法には通常、モデルのトレーニング中に低ランクの再パラメータ化 (LoRA など) や量子化 (QLoRA など) などを通じてパラメータ空間を制約することが含まれます。
この論文では、パラメータ空間を低次元の事前定義された固定非線形多様体に制約し、この空間を効果的にカバーする新しいモデル圧縮方法として MCNC を紹介します。
過剰にパラメータ化されたディープ ニューラル ネットワークでは優れたソリューションが普及していることを考慮して、パラメータ空間を提案された多様体に制限することで、さまざまなタスクにわたって前例のない圧縮率を達成しながら、高品質のソリューションを特定できることを示します。
コンピューター ビジョンおよび自然言語処理タスクにおける広範な実験を通じて、私たちの手法である MCNC が、圧縮、精度、および/またはモデルの再構築時間の点で最先端のベースラインを大幅に上回ることを実証しました。

要約(オリジナル)

The outstanding performance of large foundational models across diverse tasks-from computer vision to speech and natural language processing-has significantly increased their demand. However, storing and transmitting these models pose significant challenges due to their massive size (e.g., 350GB for GPT-3). Recent literature has focused on compressing the original weights or reducing the number of parameters required for fine-tuning these models. These compression methods typically involve constraining the parameter space, for example, through low-rank reparametrization (e.g., LoRA) or quantization (e.g., QLoRA) during model training. In this paper, we present MCNC as a novel model compression method that constrains the parameter space to low-dimensional pre-defined and frozen nonlinear manifolds, which effectively cover this space. Given the prevalence of good solutions in over-parameterized deep neural networks, we show that by constraining the parameter space to our proposed manifold, we can identify high-quality solutions while achieving unprecedented compression rates across a wide variety of tasks. Through extensive experiments in computer vision and natural language processing tasks, we demonstrate that our method, MCNC, significantly outperforms state-of-the-art baselines in terms of compression, accuracy, and/or model reconstruction time.

arxiv情報

著者 Chayne Thrash,Ali Abbasi,Parsa Nooralinejad,Soroush Abbasi Koohpayegani,Reed Andreas,Hamed Pirsiavash,Soheil Kolouri
発行日 2024-06-27 16:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク