要約
トレーニング後の量子化により、大規模言語モデル (LLM) の計算需要が軽減されますが、その機能の一部が弱くなる可能性があります。
LLM の能力は規模に応じて現れるため、LLM が小さいほど量子化の影響を受けやすくなります。
この論文では、特に長いコンテキストにおいて、量子化が小規模 LLM の検索拡張生成 (RAG) を実行する能力にどのような影響を与えるかを調査します。
評価にパーソナライゼーションを選択したのは、複数のドキュメントにわたる長いコンテキストの推論が必要なため、RAG を使用して実行するのは困難な領域であるためです。
取得するドキュメントの数を徐々に増やしながら、量子化モデルがより長いコンテキストに対してどのように機能するかをテストしながら、2 つのタスクで元の FP16 と複数の 7B および 8B LLM の量子化された INT4 パフォーマンスを比較します。
検索の効果をより深く理解するために、実験で 3 つの検索モデルを評価しました。
私たちの調査結果は、7B LLM がタスクを適切に実行する場合、量子化によってそのパフォーマンスとロングコンテキスト推論能力が損なわれないことが明らかになりました。
量子化されたより小さい LLM で RAG を利用することが可能であると結論付けます。
要約(オリジナル)
Post-training quantization reduces the computational demand of Large Language Models (LLMs) but can weaken some of their capabilities. Since LLM abilities emerge with scale, smaller LLMs are more sensitive to quantization. In this paper, we explore how quantization affects smaller LLMs’ ability to perform retrieval-augmented generation (RAG), specifically in longer contexts. We chose personalization for evaluation because it is a challenging domain to perform using RAG as it requires long-context reasoning over multiple documents. We compare the original FP16 and the quantized INT4 performance of multiple 7B and 8B LLMs on two tasks while progressively increasing the number of retrieved documents to test how quantized models fare against longer contexts. To better understand the effect of retrieval, we evaluate three retrieval models in our experiments. Our findings reveal that if a 7B LLM performs the task well, quantization does not impair its performance and long-context reasoning capabilities. We conclude that it is possible to utilize RAG with quantized smaller LLMs.
arxiv情報
著者 | Mert Yazan,Suzan Verberne,Frederik Situmeang |
発行日 | 2024-07-08 08:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google