Accelerating Retrieval-Augmented Language Model Serving with Speculation

要約

検索拡張言語モデル (RaLM) は、ノンパラメトリック知識ベースとパラメトリック言語モデルを組み合わせることで、知識集約型の自然言語処理 (NLP) タスクを解決できる可能性を実証しました。
RaLM は、完全にパラメトリックなモデルを微調整するのではなく、最新のデータとより優れたソース帰属メカニズムへの低コストの適応に優れています。
さまざまな RaLM アプローチの中でも、反復型 RaLM は、レトリーバーと言語モデル間の対話がより頻繁に行われるため、より優れた生成品質を実現します。
このような利点にもかかわらず、反復 RaLM では通常、取得ステップが頻繁に行われるため、高いオーバーヘッドが発生します。
この目的を達成するために、私たちは投機的な検索とバッチ検証を通じて同じモデル出力を維持しながら、反復的な RaLM よりも一般的な高速化を提供する投機的なフレームワークである RaLMSpec を提案します。
RaLMSpec は、プリフェッチ、最適な投機ストライド スケジューラ、および非同期検証をさらに組み込むことにより、加速の可能性を自動的に最大限に活用できます。
単純な反復的な RaLM サービングの場合、4 つのダウンストリーム QA データセットでの 3 つの言語モデルにわたる広範な評価により、レトリーバーが正確な密度の場合に、RaLMSpec が 1.75 ~ 2.39 倍、1.04 ~ 1.39 倍、および 1.31 ~ 1.77 倍の高速化率を達成できることが実証されました。
レトリーバー、近似デンス・レトリーバー、スパース・レトリーバーをそれぞれベースラインと比較しました。
KNN-LM サービスの場合、RaLMSpec は、ベースラインと比較して、リトリーバーが正確なデンス リトリーバーと近似デンス リトリーバーの場合にそれぞれ最大 7.59 倍と 2.45 倍の高速化率を達成できます。

要約(オリジナル)

Retrieval-augmented language models (RaLM) have demonstrated the potential to solve knowledge-intensive natural language processing (NLP) tasks by combining a non-parametric knowledge base with a parametric language model. Instead of fine-tuning a fully parametric model, RaLM excels at its low-cost adaptation to the latest data and better source attribution mechanisms. Among various RaLM approaches, iterative RaLM delivers a better generation quality due to a more frequent interaction between the retriever and the language model. Despite the benefits, iterative RaLM usually encounters high overheads due to the frequent retrieval step. To this end, we propose RaLMSpec, a speculation-inspired framework that provides generic speed-up over iterative RaLM while preserving the same model outputs through speculative retrieval and batched verification. By further incorporating prefetching, optimal speculation stride scheduler, and asynchronous verification, RaLMSpec can automatically exploit the acceleration potential to the fullest. For naive iterative RaLM serving, extensive evaluations over three language models on four downstream QA datasets demonstrate that RaLMSpec can achieve a speed-up ratio of 1.75-2.39x, 1.04-1.39x, and 1.31-1.77x when the retriever is an exact dense retriever, approximate dense retriever, and sparse retriever respectively compared with the baseline. For KNN-LM serving, RaLMSpec can achieve a speed-up ratio up to 7.59x and 2.45x when the retriever is an exact dense retriever and approximate dense retriever, respectively, compared with the baseline.

arxiv情報

著者 Zhihao Zhang,Alan Zhu,Lijie Yang,Yihua Xu,Lanting Li,Phitchaya Mangpo Phothilimthana,Zhihao Jia
発行日 2024-01-25 09:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク