要約
大規模な深層学習モデルが台頭し普及するにつれて、これらのモデルを広く展開するために高品質の圧縮技術の必要性が高まっています。
これらのモデルのパラメータ数は膨大であるため、さまざまなハードウェアのメモリ制約にモデルを適合させることが困難になります。
この研究では、重要性の低いパラメータを削除するのではなく、モデル内の類似したパラメータ グループをマージすることによるモデル圧縮への新しいアプローチを紹介します。
具体的には、Transformer モデル内の個別のフィードフォワード サブレイヤーを選択、位置合わせ、結合し、言語モデリング、画像分類、機械翻訳に関するメソッドをテストします。
私たちの方法では、モデル フィードフォワード サブレイヤの 3 分の 1 以上を組み合わせながら、元のモデルと同等のパフォーマンスを実証し、強力なレイヤ プルーニング ベースラインを超えるパフォーマンスの向上を実証しました。
たとえば、元のパフォーマンスの 99% を維持しながら、Vision Transformer から合計パラメータの 21% 以上を削除できます。
さらに、フィードフォワードサブレイヤーのいくつかのグループが高い活性化類似性を示していることも観察されており、これはそれらの驚くべきマージ可能性を説明するのに役立つ可能性があります。
要約(オリジナル)
With the rise and ubiquity of larger deep learning models, the need for high-quality compression techniques is growing in order to deploy these models widely. The sheer parameter count of these models makes it difficult to fit them into the memory constraints of different hardware. In this work, we present a novel approach to model compression by merging similar parameter groups within a model, rather than pruning away less important parameters. Specifically, we select, align, and merge separate feed-forward sublayers in Transformer models, and test our method on language modeling, image classification, and machine translation. With our method, we demonstrate performance comparable to the original models while combining more than a third of model feed-forward sublayers, and demonstrate improved performance over a strong layer-pruning baseline. For instance, we can remove over 21% of total parameters from a Vision Transformer, while maintaining 99% of its original performance. Additionally, we observe that some groups of feed-forward sublayers exhibit high activation similarity, which may help explain their surprising mergeability.
arxiv情報
著者 | Neha Verma,Kenton Murray,Kevin Duh |
発行日 | 2025-01-10 17:25:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google