Memory Efficient Optimizers with 4-bit States

要約

オプティマイザーの状態は、ニューラル ネットワークをトレーニングするためのメモリ消費の主な原因であり、指定されたメモリ バジェット内でトレーニング可能なモデルの最大数が制限されます。
オプティマイザの状態を 32 ビット浮動小数点からより低いビット幅に圧縮すると、トレーニング メモリのフットプリントが削減されますが、現在達成可能な最小ビット幅は 8 ビットです。
この研究では、一次モーメントと二次モーメントの詳細な実証分析を通じて、オプティマイザー状態のビット幅を 4 ビットまで引き下げました。
具体的には、モーメントには複雑な外れ値パターンがあり、現在のブロック単位の量子化では正確に近似できないことがわかりました。
より小さいブロック サイズを使用し、行方向と列方向の両方の情報を利用して量子化を改善することを提案します。
さらに、二次モーメントを量子化するゼロ点問題を特定し、ゼロ点を除外する線形量子化器を使用してこの問題を解決します。
当社の 4 ビット オプティマイザーは、自然言語理解、機械翻訳、画像分類、命令チューニングなどの幅広いベンチマークで評価されています。
すべてのタスクにおいて、当社のオプティマイザーは、メモリ効率を向上させながら、完全精度のオプティマイザーと同等の精度を達成できます。

要約(オリジナル)

Optimizer states are a major source of memory consumption for training neural networks, limiting the maximum trainable model within given memory budget. Compressing the optimizer states from 32-bit floating points to lower bitwidth is promising to reduce the training memory footprint, while the current lowest achievable bitwidth is 8-bit. In this work, we push optimizer states bitwidth down to 4-bit through a detailed empirical analysis of first and second moments. Specifically, we find that moments have complicated outlier patterns, that current block-wise quantization cannot accurately approximate. We use a smaller block size and propose to utilize both row-wise and column-wise information for better quantization. We further identify a zero point problem of quantizing the second moment, and solve this problem with a linear quantizer that excludes the zero point. Our 4-bit optimizer is evaluated on a wide variety of benchmarks including natural language understanding, machine translation, image classification, and instruction tuning. On all the tasks our optimizers can achieve comparable accuracy with their full-precision counterparts, while enjoying better memory efficiency.

arxiv情報

著者 Bingrui Li,Jianfei Chen,Jun Zhu
発行日 2023-09-06 15:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク