RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving

要約

大規模な言語モデル(LLM)と外部知識データベースからの検索を組み合わせた検索総生成(RAG)は、信頼できるLLMサービングの一般的なアプローチとして浮上しています。
ただし、多くのRAGバリアントの急速な出現と、それらのワークロード特性の実質的な違いにより、効率的なRAGサービングは依然としてオープンな課題です。
この論文では、RAGサービングの進歩に3つの基本的な貢献をしています。
まず、Ragschemaを紹介します。Ragschemaは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化であり、パフォーマンスの最適化の基盤として機能します。
第二に、いくつかの代表的なRAGワークロードを明確なRagschemaで分析し、これらのワークロード全体で大きなパフォーマンスの変動性を明らかにします。
第三に、この変動性に対処し、多様なパフォーマンス要件を満たすために、Rago(検索された生成オプティマイザー)を提案します。これは、効率的なRAGサービングのシステム最適化フレームワークです。
私たちの評価は、RAGOがチップあたりのQPSが最大2倍の増加を達成し、LLMシステム拡張機能に基づいて構築されたRAGシステムと比較して、時間から2回目までのレイテンシの55%の減少を達成することを示しています。

要約(オリジナル)

Retrieval-augmented generation (RAG), which combines large language models (LLMs) with retrievals from external knowledge databases, is emerging as a popular approach for reliable LLM serving. However, efficient RAG serving remains an open challenge due to the rapid emergence of many RAG variants and the substantial differences in workload characteristics across them. In this paper, we make three fundamental contributions to advancing RAG serving. First, we introduce RAGSchema, a structured abstraction that captures the wide range of RAG algorithms, serving as a foundation for performance optimization. Second, we analyze several representative RAG workloads with distinct RAGSchema, revealing significant performance variability across these workloads. Third, to address this variability and meet diverse performance requirements, we propose RAGO (Retrieval-Augmented Generation Optimizer), a system optimization framework for efficient RAG serving. Our evaluation shows that RAGO achieves up to a 2x increase in QPS per chip and a 55% reduction in time-to-first-token latency compared to RAG systems built on LLM-system extensions.

arxiv情報

著者 Wenqi Jiang,Suvinay Subramanian,Cat Graves,Gustavo Alonso,Amir Yazdanbakhsh,Vidushi Dadu
発行日 2025-03-21 17:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.1, cs.AI, cs.CL, cs.DC, cs.IR パーマリンク