GQKVA: Efficient Pre-training of Transformers by Grouping Queries, Keys, and Values

要約

大規模なトランスフォーマーベースのモデルは、時間がかかり、計算量が多い事前トレーニングや過剰なパラメータ化など、いくつかの課題に直面しています。
このペーパーでは、クエリ、キー、および値のグループ化手法を一般化する、GQKVA と呼ばれる汎用性の高い手法を提案することで、これらの課題に対処します。
GQKVA は、モデルのサイズを削減しながら、トランスフォーマーの事前トレーニングを高速化するように設計されています。
さまざまな GQKVA バリアントを使用した実験では、パフォーマンスとモデル サイズの間の明確なトレードオフが明らかになり、リソースと時間の制限に基づいてカスタマイズされた選択が可能になります。
私たちの調査結果はまた、より軽量で高速な代替手段が利用可能であるため、従来のマルチヘッド アテンション アプローチが常に最良の選択であるとは限らないことも示しています。
ViT でこの方法をテストしたところ、画像分類タスクにおいてモデル サイズを約 4% 削減しながら、精度が約 0.3% 向上しました。
さらに、最も積極的なモデル削減実験では、モデル サイズが約 15% 削減されましたが、精度はわずか約 1% 低下しました。

要約(オリジナル)

Massive transformer-based models face several challenges, including slow and computationally intensive pre-training and over-parametrization. This paper addresses these challenges by proposing a versatile method called GQKVA, which generalizes query, key, and value grouping techniques. GQKVA is designed to speed up transformer pre-training while reducing the model size. Our experiments with various GQKVA variants highlight a clear trade-off between performance and model size, allowing for customized choices based on resource and time limitations. Our findings also indicate that the conventional multi-head attention approach is not always the best choice, as there are lighter and faster alternatives available. We tested our method on ViT, which achieved an approximate 0.3% increase in accuracy while reducing the model size by about 4% in the task of image classification. Additionally, our most aggressive model reduction experiment resulted in a reduction of approximately 15% in model size, with only around a 1% drop in accuracy.

arxiv情報

著者 Farnoosh Javadi,Walid Ahmed,Habib Hajimolahoseini,Foozhan Ataiefard,Mohammad Hassanpour,Saina Asani,Austin Wen,Omar Mohamed Awad,Kangling Liu,Yang Liu
発行日 2023-12-13 16:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク