要約
大規模な言語モデル(LLMS)は、リアルタイムの質問と検索の生成のために、エッジプラットフォームとクラウドプラットフォーム間でますます展開されています。
ただし、分散システムで長いコンテキストを処理するには、高い計算オーバーヘッド、メモリ使用量、およびネットワーク帯域幅が発生します。
このペーパーでは、中間のコンテキスト概要を保存および再利用するための新しいセマンティックキャッシングアプローチを紹介し、LLMベースのQAワークフローの同様のクエリ全体で効率的な情報を再利用できるようにします。
私たちの方法では、自然QUASTIONS、TRIVIAQA、および合成ARXIVデータセットで実証されているように、完全なドキュメント処理に匹敵する回答の精度を維持しながら、冗長な計算を最大50〜60%削減します。
このアプローチは、リアルタイムAIアシスタントにとって重要な計算コストと応答の品質のバランスを取ります。
要約(オリジナル)
Large Language Models (LLMs) are increasingly deployed across edge and cloud platforms for real-time question-answering and retrieval-augmented generation. However, processing lengthy contexts in distributed systems incurs high computational overhead, memory usage, and network bandwidth. This paper introduces a novel semantic caching approach for storing and reusing intermediate contextual summaries, enabling efficient information reuse across similar queries in LLM-based QA workflows. Our method reduces redundant computations by up to 50-60% while maintaining answer accuracy comparable to full document processing, as demonstrated on NaturalQuestions, TriviaQA, and a synthetic ArXiv dataset. This approach balances computational cost and response quality, critical for real-time AI assistants.
arxiv情報
著者 | Camille Couturier,Spyros Mastorakis,Haiying Shen,Saravan Rajmohan,Victor Rühle |
発行日 | 2025-05-16 14:04:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google