要約
大規模言語モデル (LLM) は、単一のフォワード パスで数百万のトークンを処理できる広範なコンテキスト ウィンドウを備えているため、長い連続入力の理解と分析において優れた機能を実証しています。
ただし、この論文では、LLM は長い入力シーケンスを処理する場合に不十分であるという驚くべき制限を明らかにしました。
私たちは、Claude 3、Gemini Pro、GPT 3.5 Turbo、Llama 3 Instruct、Mistral Instruct モデルを含むさまざまな LLM にわたる 3 つのデータセットと 2 つのタスク (感情分析とニュース分類) を使用してこの問題を調査します。
この制限に対処するために、API コストとレイテンシをそれぞれ最大 93% と最大 50% 削減しながら、長い入力シーケンスでの LLM のパフォーマンスを最大 50% 大幅に向上させるアドホック ソリューションを提案および評価します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities in comprehending and analyzing lengthy sequential inputs, owing to their extensive context windows that allow processing millions of tokens in a single forward pass. However, this paper uncovers a surprising limitation: LLMs fall short when handling long input sequences. We investigate this issue using three datasets and two tasks (sentiment analysis and news categorization) across various LLMs, including Claude 3, Gemini Pro, GPT 3.5 Turbo, Llama 3 Instruct, and Mistral Instruct models. To address this limitation, we propose and evaluate ad-hoc solutions that substantially enhance LLMs’ performance on long input sequences by up to 50%, while reducing API cost and latency by up to 93% and 50%, respectively.
arxiv情報
著者 | Peyman Hosseini,Ignacio Castro,Iacopo Ghinassi,Matthew Purver |
発行日 | 2024-12-20 13:19:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google