要約
この論文では、ビジョン言語命令の調整中に遭遇する重大なリソース制約を軽減するために、マルチモーダル大規模言語モデルのパラメータ量子化の可能性を探る最初の研究を紹介します。
QSLAW と呼ばれる、マルチモーダル ウォームアップに基づく量子化対応スケール学習方法を導入します。
この方法は、2 つの主要な革新に基づいています。(1) 量子化された LLM 重みのグループごとのスケール係数を学習して、アクティベーション外れ値から生じる量子化誤差を軽減し、より効果的な視覚言語命令の調整を実現します。
(2) 言語サンプルとマルチモーダル トレーニング サンプルを段階的に統合するマルチモーダル ウォームアップの実装。これにより、下流の視覚言語タスクに対するマルチモーダル大規模言語モデルの安定した適応を確保しながら、量子化モデルのマルチモーダル データへの過剰適合を防止します。
広範な実験により、QSLAW によって量子化されたモデルは完全精度のモデルと同等、またはそれを上回るパフォーマンスを示し、同時に VL チューニング時間と GPU 消費量を最大 1.4 倍削減できることが実証されました。
私たちのコードは https://github.com/xjjxmu/QSLAW で公開されています。
要約(オリジナル)
This paper presents the first study to explore the potential of parameter quantization for multimodal large language models to alleviate the significant resource constraint encountered during vision-language instruction tuning. We introduce a Quantization-aware Scale LeArning method based on multimodal Warmup, termed QSLAW. This method is grounded in two key innovations: (1) The learning of group-wise scale factors for quantized LLM weights to mitigate the quantization error arising from activation outliers and achieve more effective vision-language instruction tuning; (2) The implementation of a multimodal warmup that progressively integrates linguistic and multimodal training samples, thereby preventing overfitting of the quantized model to multimodal data while ensuring stable adaptation of multimodal large language models to downstream vision-language tasks. Extensive experiments demonstrate that models quantized by QSLAW perform on par with, or even surpass, their full-precision counterparts, while facilitating up to 1.4 times reduction in VL tuning time and GPU consumption. Our code is released at https://github.com/xjjxmu/QSLAW.
arxiv情報
| 著者 | Jingjing Xie,Yuxin Zhang,Mingbao Lin,Liujuan Cao,Rongrong Ji |
| 発行日 | 2024-08-07 12:42:09+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google