Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

要約

検索拡張生成 (RAG) は、大規模言語モデル (LLM) が長すぎるコンテキストを効率的に処理するための強力なツールです。
ただし、Gemini-1.5 や GPT-4 などの最近の LLM は、長いコンテキストを直接理解する優れた機能を示します。
私たちは、RAG とロングコンテキスト (LC) LLM の包括的な比較を実施し、両方の強みを活用することを目指しています。
3 つの最新の LLM を使用して、さまざまな公開データセットにわたって RAG と LC のベンチマークを行います。
結果は、リソースが十分にある場合、平均パフォーマンスの点で LC が常に RAG を上回っていることを示しています。
ただし、RAG のコストが大幅に低いことは依然として明らかな利点です。
この観察に基づいて、モデルの自己反映に基づいてクエリを RAG または LC にルーティングするシンプルかつ効果的な方法である Self-Route を提案します。
Self-Route は、LC と同等のパフォーマンスを維持しながら、計算コストを大幅に削減します。
私たちの調査結果は、RAG と LC を使用した LLM のロングコンテキスト アプリケーションのガイドラインを提供します。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has been a powerful tool for Large Language Models (LLMs) to efficiently process overly lengthy contexts. However, recent LLMs like Gemini-1.5 and GPT-4 show exceptional capabilities to understand long contexts directly. We conduct a comprehensive comparison between RAG and long-context (LC) LLMs, aiming to leverage the strengths of both. We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG’s significantly lower cost remains a distinct advantage. Based on this observation, we propose Self-Route, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. Self-Route significantly reduces the computation cost while maintaining a comparable performance to LC. Our findings provide a guideline for long-context applications of LLMs using RAG and LC.

arxiv情報

著者 Zhuowan Li,Cheng Li,Mingyang Zhang,Qiaozhu Mei,Michael Bendersky
発行日 2024-10-17 17:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク