QuickLLaMA: Query-aware Inference Acceleration for Large Language Models

要約

大規模言語モデル (LLM) が長い文脈を理解し推論する能力は、さまざまな分野の進歩にとって極めて重要です。
しかし、セマンティクスを深く理解するために、シーケンス内の長距離の依存関係を捕捉することに依然として苦労しています。
この問題に対処するために、人間の認知に似た広範なシーケンスを処理するように設計されたシステムである Query-aware Inference for LLM (Q-LLM) を導入します。
特定のクエリに関連するメモリ データに焦点を当てることで、Q-LLM は固定ウィンドウ サイズ内で関連情報を正確にキャプチャし、クエリに対して正確な回答を提供できます。
追加のトレーニングは必要なく、LLM とシームレスに統合できます。
LLaMA3 (QuickLLaMA) を使用した Q-LLM は、30 秒以内にハリー・ポッターを読み、質問に正確に答えることができます。
Q-LLM は、LLaMA3 では現在の最先端のものと比較して 7.17% 改善され、$\infty$-bench の Mistral では 3.26% 改善されました。
Needle-in-a-Haystack タスクでは、広く認識されているベンチマークで、Q-LLM は現在の SOTA を Mistral で 7.0% 改善し、LLaMA3 で 100% を達成しました。
私たちのコードは https://github.com/dvlab-research/Q-LLM にあります。

要約(オリジナル)

The capacity of Large Language Models (LLMs) to comprehend and reason over long contexts is pivotal for advancements in diverse fields. Yet, they still stuggle with capturing long-distance dependencies within sequences to deeply understand semantics. To address this issue, we introduce Query-aware Inference for LLMs (Q-LLM), a system designed to process extensive sequences akin to human cognition. By focusing on memory data relevant to a given query, Q-LLM can accurately capture pertinent information within a fixed window size and provide precise answers to queries. It doesn’t require extra training and can be seamlessly integrated with any LLMs. Q-LLM using LLaMA3 (QuickLLaMA) can read Harry Potter within 30s and accurately answer the questions. Q-LLM improved by 7.17% compared to the current state-of-the-art on LLaMA3, and by 3.26% on Mistral on the $\infty$-bench. In the Needle-in-a-Haystack task, On widely recognized benchmarks, Q-LLM improved upon the current SOTA by 7.0% on Mistral and achieves 100% on LLaMA3. Our code can be found in https://github.com/dvlab-research/Q-LLM.

arxiv情報

著者 Jingyao Li,Han Shi,Xin Jiang,Zhenguo Li,Hong Xu,Jiaya Jia
発行日 2024-06-11 17:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク