How Does Quantization Affect Multilingual LLMs?

要約

量子化技術は、推論速度の向上と大規模言語モデルの展開に広く用いられている。量子化されたLLMが英語のタスクに与える影響については様々な研究がなされているが、言語横断的な量子化の効果について検討したものはない。我々は、量子化された多言語LLMの徹底的な分析を行い、言語間および様々なスケールでの性能に焦点を当てる。自動ベンチマーク、LLM-as-a-Judgeメソッド、および人間による評価を使用し、(1)人間による評価では量子化の悪影響が明らかであり、自動評価指標ではその悪影響が著しく過小評価されていること、(2)量子化の影響を受ける言語はばらばらであり、非ラテン文字言語の影響が最も大きいこと、(3)数学的推論のような難易度の高いタスクが最も速く劣化することを発見した。この結果は、効率的なモデルの重要な評価基準として、多言語性能を考慮することを促すものである。

要約(オリジナル)

Quantization techniques are widely used to improve inference speed and deployment of large language models. While a wide body of work examines the impact of quantized LLMs on English tasks, none have examined the effect of quantization across languages. We conduct a thorough analysis of quantized multilingual LLMs, focusing on their performance across languages and at varying scales. We use automatic benchmarks, LLM-as-a-Judge methods, and human evaluation, finding that (1) harmful effects of quantization are apparent in human evaluation, and automatic metrics severely underestimate the detriment: a 1.7% average drop in Japanese across automatic tasks corresponds to a 16.0% drop reported by human evaluators on realistic prompts; (2) languages are disparately affected by quantization, with non-Latin script languages impacted worst; and (3) challenging tasks such as mathematical reasoning degrade fastest. As the ability to serve low-compute models is critical for wide global adoption of NLP technologies, our results urge consideration of multilingual performance as a key evaluation criterion for efficient models.

arxiv情報

著者 Kelly Marchisio,Saurabh Dash,Hongyu Chen,Dennis Aumiller,Ahmet Üstün,Sara Hooker,Sebastian Ruder
発行日 2024-07-03 15:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク