DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

要約

自然言語理解における大規模なトランスフォーマー モデルの多大な成功により、コスト効率の高い導入のためにモデルをダウンサイジングすることが重要になっています。
最近の研究では、効率的にトレーニングし、すぐにあらゆるトランス アーキテクチャに適用できる低ランクの重み因数分解手法が研究されています。
残念ながら、低ランクの仮定は過度に制限される傾向があり、圧縮モデルの表現力を妨げます。
この論文では、ターゲットの重み行列を小さな密行列と半構造化された疎行列の積として表現する単純な代替因数分解スキーム DSFormer を提案します。
結果として得られる近似は、変圧器の重量分布により忠実であるため、より強力な効率と精度のトレードオフが達成されます。
既存のファクタライザーに関するもう 1 つの問題は、タスクを意識しない初期化ステップに依存しているため、結果として得られるモデルの精度が低下することです。
DSFormer は、すべての重み因数分解を共同学習して最終タスクの精度を直接最大化する、新しいストレートスルーファクタライザー (STF) アルゴリズムを通じてこの問題に対処します。
複数の自然言語理解ベンチマークに関する広範な実験により、DSFormer が最先端の低ランク因数分解器、最先端の半構造化スパース性ベースラインおよび一般的な知識蒸留アプローチよりも最大 40% 優れた圧縮率を実現できることが実証されました。
私たちのアプローチは主流のコンプレッサーとも直交しており、一般的な蒸留され、レイヤー共有され、量子化されたトランスフォーマーに追加すると、最大 50% の追加圧縮が可能になります。
従来の最適化手法と比較した STF の利点を経験的に評価します。

要約(オリジナル)

With the tremendous success of large transformer models in natural language understanding, down-sizing them for cost-effective deployments has become critical. Recent studies have explored the low-rank weight factorization techniques which are efficient to train, and apply out-of-the-box to any transformer architecture. Unfortunately, the low-rank assumption tends to be over-restrictive and hinders the expressiveness of the compressed model. This paper proposes, DSFormer, a simple alternative factorization scheme which expresses a target weight matrix as the product of a small dense and a semi-structured sparse matrix. The resulting approximation is more faithful to the weight distribution in transformers and therefore achieves a stronger efficiency-accuracy trade-off. Another concern with existing factorizers is their dependence on a task-unaware initialization step which degrades the accuracy of the resulting model. DSFormer addresses this issue through a novel Straight-Through Factorizer (STF) algorithm that jointly learns all the weight factorizations to directly maximize the final task accuracy. Extensive experiments on multiple natural language understanding benchmarks demonstrate that DSFormer obtains up to 40% better compression than the state-of-the-art low-rank factorizers, leading semi-structured sparsity baselines and popular knowledge distillation approaches. Our approach is also orthogonal to mainstream compressors and offers up to 50% additional compression when added to popular distilled, layer-shared and quantized transformers. We empirically evaluate the benefits of STF over conventional optimization practices.

arxiv情報

著者 Rahul Chand,Yashoteja Prabhu,Pratyush Kumar
発行日 2023-12-20 17:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク