FP8 versus INT8 for efficient deep learning inference

要約

タイトル:FP8とINT8の効率的なディープラーニング推論の比較

要約:
– FP32やFP16を用いたネットワークのトレーニングが現在もっとも一般的であるが、近年、FP8を用いたトレーニングが注目を集めている。
– ディープラーニングのトレーニングは一般的にコストがかかるため、一部のネットワークをFP8で走らせることで効率化が可能と考えられている。
– しかし、エッジデバイスにおいては、推論ワークロードはINT8で実行されることが多く、効率を求める場合にはINT4にまで下げられることもある。
– 本論文では、FP8とINT8のフォーマットについて、理論的な違いやトレーニング後の量子化に関する結果、ハードウェア分析などを用いて比較を行い、効率的なエッジデバイス上の推論について考察する。
– 結果として、トレーニングにはFP8が有用であるとしても、現在のところ、効率的な推論のためにはINT8が優れていると結論づけられた。
– また、FP8でトレーニングされたネットワークをINT8に変換した場合の効率についても検討され、最も効率的なデプロイ方法とともに多数のINT8モデルの結果が提示されている。

要約(オリジナル)

Recently, the idea of using FP8 as a number format for neural network training has been floating around the deep learning world. Given that most training is currently conducted with entire networks in FP32, or sometimes FP16 with mixed-precision, the step to having some parts of a network run in FP8 with 8-bit weights is an appealing potential speed-up for the generally costly and time-intensive training procedures in deep learning. A natural question arises regarding what this development means for efficient inference on edge devices. In the efficient inference device world, workloads are frequently executed in INT8. Sometimes going even as low as INT4 when efficiency calls for it. In this whitepaper, we compare the performance for both the FP8 and INT formats for efficient on-device inference. We theoretically show the difference between the INT and FP formats for neural networks and present a plethora of post-training quantization and quantization-aware-training results to show how this theory translates to practice. We also provide a hardware analysis showing that the FP formats are somewhere between 50-180% less efficient in terms of compute in dedicated hardware than the INT format. Based on our research and a read of the research field, we conclude that although the proposed FP8 format could be good for training, the results for inference do not warrant a dedicated implementation of FP8 in favor of INT8 for efficient inference. We show that our results are mostly consistent with previous findings but that important comparisons between the formats have thus far been lacking. Finally, we discuss what happens when FP8-trained networks are converted to INT8 and conclude with a brief discussion on the most efficient way for on-device deployment and an extensive suite of INT8 results for many models.

arxiv情報

著者 Mart van Baalen,Andrey Kuzmin,Suparna S Nair,Yuwei Ren,Eric Mahurin,Chirag Patel,Sundar Subramanian,Sanghyuk Lee,Markus Nagel,Joseph Soriaga,Tijmen Blankevoort
発行日 2023-03-31 10:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク