Training Acceleration of Low-Rank Decomposed Networks using Sequential Freezing and Rank Quantization

要約

低ランク分解 (LRD) は、トレーニング可能なパラメーターの数と計算の複雑さを削減するために、深層学習モデルの重みテンソルに適用されるモデル圧縮手法です。
ただし、LRD の適用後にアーキテクチャに多数の新しいレイヤーが追加されるため、分解ランクが十分に小さくないと、高いトレーニング/推論の高速化につながらない可能性があります。
問題は、小さなランクを使用すると、分解後に精度が大幅に低下するリスクが高まることです。
この論文では、分解に小さなランクを使用する必要なく、低ランクの分解モデルを高速化するための 2 つの手法を提案します。
これらの方法には、ランクの最適化と、分解されたレイヤーの逐次フリーズが含まれます。
畳み込みモデルと変換ベースのモデルの両方で実験を実行します。
実験によると、これらの手法を組み合わせると、元のモデルに近い精度を維持しながら、モデルのスループットをトレーニング中に最大 60%、推論中に 37% 向上させることができます。

要約(オリジナル)

Low Rank Decomposition (LRD) is a model compression technique applied to the weight tensors of deep learning models in order to reduce the number of trainable parameters and computational complexity. However, due to high number of new layers added to the architecture after applying LRD, it may not lead to a high training/inference acceleration if the decomposition ranks are not small enough. The issue is that using small ranks increases the risk of significant accuracy drop after decomposition. In this paper, we propose two techniques for accelerating low rank decomposed models without requiring to use small ranks for decomposition. These methods include rank optimization and sequential freezing of decomposed layers. We perform experiments on both convolutional and transformer-based models. Experiments show that these techniques can improve the model throughput up to 60% during training and 37% during inference when combined together while preserving the accuracy close to that of the original models

arxiv情報

著者 Habib Hajimolahoseini,Walid Ahmed,Yang Liu
発行日 2023-09-07 16:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク