Irrational Complex Rotations Empower Low-bit Optimizers

要約

この論文では、新しいオプティマイザ状態圧縮アルゴリズム $\pi$-Quant を提案します。これはメモリ効率の高いトレーニングのために無理数 ($\pi$ など) の特性を活用します。
中心となるアイデアは、複雑な回転スキームを使用して、1 対のパラメーターを単一の回転角度で表現できることを示す数学的発見に基づいています。
この洞察に基づいて、パラメータを複素空間にマッピングし、対応する回転角度を使用して量子化を実行します。
これを最適化プロセスに効率的に統合するために、線形複雑さで正確な回転角度を計算する効率的な幾何方程式システムを開発します。
私たちはさまざまなタスクに関して $\pi$-Quant を評価します。
私たちの実験では、パラメータのビット幅を 3.32 ビットに削減でき、完全な精度を維持しながら、パラメータのスケールを 75% 削減し、GPU メモリ使用量を 40% 削減できることがわかりました。

要約(オリジナル)

In this paper, we propose a novel optimizer state compression algorithm, namely $\pi$-Quant, which leverages the properties of irrational numbers (e.g., $\pi$) for memory-efficient training. The core idea is based on our mathematical findings, which show that a pair of parameters can be represented by a single rotation angle using the complex rotation scheme. Building on this insight, we map the parameters into a complex space and perform quantization using the corresponding rotation angles. To efficiently integrate it into optimization process, we develop an efficient system of geometric equations that computes the precise rotation angles with linear complexity. We evaluate $\pi$-Quant on a wide range of tasks. Our experiments show that it can reduce the bit-width of parameters to 3.32-bit, achieving a 75% reduction in parameter scale and a 40% decrease in GPU memory usage, all while maintaining full accuracy.

arxiv情報

著者 Zhen Tian,Wayne Xin Zhao,Ji-Rong Wen
発行日 2025-01-22 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク