Transformer tricks: Removing weights for skipless transformers

要約

彼と Hofmann (arXiv:2311.01906) は、V および P (ポストアテンション プロジェクション) 線形層を使用しないスキップレス トランスフォーマーについて詳しく説明しました。これにより、重みの総数が削減されます。
ただし、この方式は MHA (マルチヘッド アテンション) にのみ適用でき、MQA (マルチクエリ アテンション) および GQA (グループ化クエリ アテンション) には適用できません。
後者のスキームは、Llama 2、Mistral、Mixtral、PaLM、Gemma などの多くの人気のある LLM で使用されています。
したがって、このマイクロペーパーは、MQA と GQA に適した数学的に同等のバージョンを提案します。
たとえば、Mistral-7B のスキップレス バージョンから Q と P を削除すると、重みの 15% が削除されます (したがって、計算とメモリの複雑さが軽減されます)。
コードとその他のトランスフォーマー トリックについては、arXiv:2402.13388 および https://github.com/OpenMachine-ai/transformer-tricks を参照してください。

要約(オリジナル)

He and Hofmann (arXiv:2311.01906) detailed a skipless transformer without the V and P (post-attention projection) linear layers, which reduces the total number of weights. However, this scheme is only applicable to MHA (multi-head attention), but not for MQA (multi-query attention) and GQA (grouped-query attention). The latter schemes are used by many popular LLMs such as Llama 2, Mistral, Mixtral, PaLM, and Gemma. Therefore, this micro-paper proposes mathematically equivalent versions that are suitable for MQA and GQA. For example, removing Q and P from a skipless version of Mistral-7B would remove 15% of its weights (and thus reduce its compute and memory complexity). See arXiv:2402.13388 and https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer tricks.

arxiv情報

著者 Nils Graef
発行日 2024-04-18 17:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク