Addition is All You Need for Energy-efficient Language Models

要約

大規模なニューラル ネットワークは、ほとんどの計算を浮動小数点テンソル乗算に費やします。
この研究では、浮動小数点乗算器が 1 つの整数加算器で高精度に近似できることがわかりました。
浮動小数点数乗算を整数加算演算で近似する線形複雑性乗算 L-Mul アルゴリズムを提案します。
新しいアルゴリズムは、8 ビット浮動小数点乗算よりも計算リソースのコストが大幅に少なくなりますが、より高い精度を実現します。
8 ビット浮動小数点乗算と比較して、提案された方法はより高い精度を達成しますが、消費するビットレベルの計算は大幅に少なくなります。
浮動小数点数の乗算は、整数の加算演算と比較してかなり高いエネルギーを必要とするため、L-Mul 演算をテンソル処理ハードウェアに適用すると、要素ごとの浮動小数点テンソル乗算によってエネルギー コストを 95%、内積のエネルギー コストを 80% 削減できる可能性があります。
私たちは、L-Mul の理論上の誤差の期待値を計算し、自然言語理解、構造的推論、数学、常識的な質問応答など、広範囲のテキスト、視覚、記号タスクでアルゴリズムを評価しました。
私たちの数値解析実験は理論上の誤差推定と一致しており、4 ビットの仮数を持つ L-Mul は float8_e4m3 の乗算と同等の精度を達成し、3 ビットの仮数を持つ L-Mul は float8_e5m2 よりも優れていることを示しています。
一般的なベンチマークでの評価結果は、L-Mul を注意メカニズムに直接適用すると、ほぼ損失が発生しないことを示しています。
さらに、トランスフォーマー モデルですべての浮動小数点乗算を 3 ビットの仮数 L-Mul に置き換えることで、微調整と推論の両方で float8_e4m3 を累積精度として使用するのと同等の精度が達成されることを示します。

要約(オリジナル)

Large neural networks spend most computation on floating point tensor multiplications. In this work, we find that a floating point multiplier can be approximated by one integer adder with high precision. We propose the linear-complexity multiplication L-Mul algorithm that approximates floating point number multiplication with integer addition operations. The new algorithm costs significantly less computation resource than 8-bit floating point multiplication but achieves higher precision. Compared to 8-bit floating point multiplications, the proposed method achieves higher precision but consumes significantly less bit-level computation. Since multiplying floating point numbers requires substantially higher energy compared to integer addition operations, applying the L-Mul operation in tensor processing hardware can potentially reduce 95% energy cost by element-wise floating point tensor multiplications and 80% energy cost of dot products. We calculated the theoretical error expectation of L-Mul, and evaluated the algorithm on a wide range of textual, visual, and symbolic tasks, including natural language understanding, structural reasoning, mathematics, and commonsense question answering. Our numerical analysis experiments agree with the theoretical error estimation, which indicates that L-Mul with 4-bit mantissa achieves comparable precision as float8_e4m3 multiplications, and L-Mul with 3-bit mantissa outperforms float8_e5m2. Evaluation results on popular benchmarks show that directly applying L-Mul to the attention mechanism is almost lossless. We further show that replacing all floating point multiplications with 3-bit mantissa L-Mul in a transformer model achieves equivalent precision as using float8_e4m3 as accumulation precision in both fine-tuning and inference.

arxiv情報

著者 Hongyin Luo,Wei Sun
発行日 2024-10-02 15:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク