要約
彼と Hofmann (arXiv:2311.01906) は、V および P (ポストアテンション プロジェクション) 線形層を使用しないスキップレス トランスフォーマーについて詳しく説明しました。これにより、重みの総数が削減されます。
ただし、この方式は MHA (マルチヘッド アテンション) にのみ適用でき、MQA (マルチクエリ アテンション) および GQA (グループ化クエリ アテンション) には適用できません。
後者のスキームは、Llama 2、Mistral、Mixtral、PaLM、Gemma などの多くの人気のある LLM で使用されています。
したがって、このマイクロペーパーは、MQA と GQA に適した数学的に同等のバージョンを提案します。
たとえば、Mistral-7B のスキップレス バージョンから Q と P を削除すると、重みの 15% が削除されます (したがって、計算とメモリの複雑さが軽減されます)。
コードとその他のトランスフォーマー トリックについては、arXiv:2402.13388 および https://github.com/OpenMachine-ai/transformer-tricks を参照してください。
要約(オリジナル)
He and Hofmann (arXiv:2311.01906) detailed a skipless transformer without the V and P (post-attention projection) linear layers, which reduces the total number of weights. However, this scheme is only applicable to MHA (multi-head attention), but not for MQA (multi-query attention) and GQA (grouped-query attention). The latter schemes are used by many popular LLMs such as Llama 2, Mistral, Mixtral, PaLM, and Gemma. Therefore, this micro-paper proposes mathematically equivalent versions that are suitable for MQA and GQA. For example, removing Q and P from a skipless version of Mistral-7B would remove 15% of its weights (and thus reduce its compute and memory complexity). See arXiv:2402.13388 and https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer tricks.
arxiv情報
著者 | Nils Graef |
発行日 | 2024-04-18 17:45:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google