要約
トレーニング後の量子化は、ニューラル ネットワークの計算要求を軽減するために広く採用されています。
通常、層や層のブロックなどの個々の下部構造は、対応する重みを微調整することによって事前活性化における量子化誤差を最小限に抑えることを目的として量子化されます。
タスク損失を最小限に抑えるというグローバルな目標からこのローカルな目標を導き出すには、2 つの重要な単純化が必要です。1 つは部分構造が相互に独立していると仮定すること、もう 1 つは後続の部分構造とタスク損失の知識を無視することです。
この研究では、大規模な言語モデルの重みのみの量子化に対するこれらの単純化の影響を評価します。
2 つのマルチブロック微調整戦略を導入し、単一の変圧器ブロックを微調整するベースラインと比較します。
1 つ目は、複数の量子化ブロックを共同で最適化することで、ブロック全体の重みの相関関係を取得します。
2 つ目は、量子化されたブロックのみに焦点を当てるのではなく、下流の事前アクティベーションでのエラーを最小限に抑えることで、後続のブロックの情報を組み込みます。
私たちの調査結果は、これらの方法の有効性は特定のネットワーク モデルに依存し、一部のモデルには影響を及ぼさないが、他のモデルには大きな利点があることを示しています。
要約(オリジナル)
Post-training quantization is widely employed to reduce the computational demands of neural networks. Typically, individual substructures, such as layers or blocks of layers, are quantized with the objective of minimizing quantization errors in their pre-activations by fine-tuning the corresponding weights. Deriving this local objective from the global objective of minimizing task loss involves two key simplifications: assuming substructures are mutually independent and ignoring the knowledge of subsequent substructures as well as the task loss. In this work, we assess the effects of these simplifications on weight-only quantization of large language models. We introduce two multi-block fine-tuning strategies and compare them against the baseline of fine-tuning single transformer blocks. The first captures correlations of weights across blocks by jointly optimizing multiple quantized blocks. The second incorporates knowledge of subsequent blocks by minimizing the error in downstream pre-activations rather than focusing solely on the quantized block. Our findings indicate that the effectiveness of these methods depends on the specific network model, with no impact on some models but demonstrating significant benefits for others.
arxiv情報
著者 | Khasmamad Shabanovi,Lukas Wiest,Vladimir Golkov,Daniel Cremers,Thomas Pfeil |
発行日 | 2024-11-06 14:11:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google