The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference

要約

Deep Learning(DL)の最近の進歩により、FP16、BF16、および8または16ビットの整数などの還元型形式への従来の64ビットフローティングポイント(FP64)計算から、混合前算術と組み合わせて移行しました。
この遷移により、計算スループットが強化され、メモリと帯域幅の使用が削減され、エネルギー効率が向上し、リソース制約のエッジデバイスに大きな利点があります。
このシフトをサポートするために、ハードウェアアーキテクチャはそれに応じて進化しました。現在、DLワークロードに合わせた混合精度ベクトルユニットとマトリックスエンジンを露出する適応ISAS(命令セットアーキテクチャ)を含みます。
多くのDLおよび科学的コンピューティングタスクの中心にあるのは、SIMD(単一命令、複数のデータ)ユニットのAxpy Vector命令を使用して歴史的に最適化された基本的なカーネルである一般的なマトリックスマトリックス乗算GEMMです。
ただし、ハードウェアが量子化された推論用に最適化された混合環境ドットプロダクト中心操作に向かって移動するにつれて、これらのレガシーアプローチは段階的に廃止されています。
これに応じて、私たちの論文は従来の高性能GEMMを再訪し、X86_64、ARM、RISC-Vを含む最新のISA全体で混合整数(MIP)算術に適応するための戦略について説明しています。
具体的には、3つの代表的なCPUアーキテクチャにわたるフローティングポイント実装にわたって、今日の特殊なハードウェアをよりよく活用し、MIP算術からの大幅なパフォーマンスの向上を示す新しいマイクロカーネル設計とデータレイアウトを説明します。
これらの貢献は、不均一なアーキテクチャでのDL推論の要求に駆られるGEMM最適化の新しい時代を強調し、マトリックス増殖の「カンブリア紀」と呼ぶものをマークします。

要約(オリジナル)

Recent advances in deep learning (DL) have led to a shift from traditional 64-bit floating point (FP64) computations toward reduced-precision formats, such as FP16, BF16, and 8- or 16-bit integers, combined with mixed-precision arithmetic. This transition enhances computational throughput, reduces memory and bandwidth usage, and improves energy efficiency, offering significant advantages for resource-constrained edge devices. To support this shift, hardware architectures have evolved accordingly, now including adapted ISAs (Instruction Set Architectures) that expose mixed-precision vector units and matrix engines tailored for DL workloads. At the heart of many DL and scientific computing tasks is the general matrix-matrix multiplication gemm, a fundamental kernel historically optimized using axpy vector instructions on SIMD (single instruction, multiple data) units. However, as hardware moves toward mixed-precision dot-product-centric operations optimized for quantized inference, these legacy approaches are being phased out. In response to this, our paper revisits traditional high-performance gemm and describes strategies for adapting it to mixed-precision integer (MIP) arithmetic across modern ISAs, including x86_64, ARM, and RISC-V. Concretely, we illustrate novel micro-kernel designs and data layouts that better exploit today’s specialized hardware and demonstrate significant performance gains from MIP arithmetic over floating-point implementations across three representative CPU architectures. These contributions highlight a new era of gemm optimization-driven by the demands of DL inference on heterogeneous architectures, marking what we term as the ‘Cambrian period’ for matrix multiplication.

arxiv情報

著者 Héctor Martínez,Adrián Castelló,Francisco D. Igual,Enrique S. Quintana-Ortí
発行日 2025-06-13 12:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク