要約
ローカルに展開されたLLMSの消費者使用のために、GGUF形式とK_QUANTIZATIONは、元のモデルのパフォーマンスを維持しながら、消費者グレードのハードウェアで展開可能なサイズに縮小するための貴重なツールです。
元のモデルからの各重量専用のビット数は、モデル推論中にそれらがどれほど重要であると考えられるかに基づいて減少します。
この重要性は、「重要性マトリックス」、つまりLLMの標準使用ケースを代表することを目的とした比較的小さなテキストドキュメントを適用することで得られます。
オンラインで入手可能な大部分のクアントでは、このドキュメントは主に英語で書かれています。
したがって、英語のタスクのパフォーマンスが多言語のパフォーマンスの犠牲によって保存されたかどうか、そしてそれが代替重要なマトリックスで保存できるかどうかは、未解決の問題でした。
この記事では、これらの仮説を調査し、3つの言語(英語、ノルウェー、マラヤラム)で書かれた重要なマトリックスでLLAMA3.3 70Bを量子化し、英語とノルウェーの両方のMixevalデータセットで評価します。
k_quantizationに関連するすべての実験により、重要でない結果が得られました(すべての場合、p> 0.237)。
要約(オリジナル)
For consumer usage of locally deployed LLMs, the GGUF format and k_quantization are invaluable tools for maintaining the performance of the original model while reducing it to sizes deployable with consumer-grade hardware. The number of bits dedicated to each weight from the original model is reduced based on how important they are thought to be during model inference. This importance is arrived at through the application of an ‘importance matrix’-a relatively small text document meant to be representative of the LLM’s standard use-cases. In the vast majority of quants available online, this document is primarily written in English. It was therefore an open question whether performance on English language tasks was preserved through the sacrifice of multilingual performance and whether it can be preserved with alternate importance matrices. This article investigates these hypotheses by quantizing Llama3.3 70B on importance matrices written in three languages (English, Norwegian, and Malayalam) and evaluating them on the MixEval dataset in both English and Norwegian. All experiments related to k_quantization yielded non-significant results (In all cases p > 0.237) indicating that current quantization practices do not disproportionately harm multilingual performance.
arxiv情報
著者 | Karl Audun Borgersen |
発行日 | 2025-03-05 15:26:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google