LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

要約

従来の RAG フレームワークでは、基本的な取得単位は通常短いです。
DPR のような一般的なレトリバーは通常、100 単語の Wikipedia 段落を処理します。
このような設計では、検索者は「針」ユニットを見つけるために大きなコーパスを検索する必要があります。
対照的に、リーダーは短い検索ユニットから回答を抽出するだけで済みます。
このような「重い」レトリバーと「軽い」リーダーの設計の不均衡は、最適化されていないパフォーマンスにつながる可能性があります。
この不均衡を軽減するために、我々は「ロングレトリバー」と「ロングリーダー」から構成される新しいフレームワークLongRAGを提案する。
LongRAG は Wikipedia 全体を 4K トークン単位に処理します。これは以前より 30 倍の時間がかかります。
ユニット サイズを増やすことで、総ユニット数が 22M から 700K に大幅に削減されます。
これにより、検索者の負担が大幅に軽減され、驚くべき検索スコアが得られます。NQ では回答再現率 @1=71% (以前は 52%)、HotpotQA (フルウィキ) では回答再現率 @2=72% (以前は 47%) でした。

次に、取得した上位 k 単位 ($\およそ $ 30K トークン) を既存のロングコンテキスト LLM に供給して、ゼロショット応答抽出を実行します。
LongRAG はトレーニングを必要とせずに、NQ で 62.7% の EM を達成します。これは最もよく知られている結果です。
LongRAG は HotpotQA (フルウィキ) でも 64.3% を達成しており、これは SoTA モデルと同等です。
私たちの研究は、RAG とロングコンテキスト LLM を組み合わせる将来のロードマップへの洞察を提供します。

要約(オリジナル)

In traditional RAG framework, the basic retrieval units are normally short. The common retrievers like DPR normally work with 100-word Wikipedia paragraphs. Such a design forces the retriever to search over a large corpus to find the `needle’ unit. In contrast, the readers only need to extract answers from the short retrieved units. Such an imbalanced `heavy’ retriever and `light’ reader design can lead to sub-optimal performance. In order to alleviate the imbalance, we propose a new framework LongRAG, consisting of a `long retriever’ and a `long reader’. LongRAG processes the entire Wikipedia into 4K-token units, which is 30x longer than before. By increasing the unit size, we significantly reduce the total units from 22M to 700K. This significantly lowers the burden of retriever, which leads to a remarkable retrieval score: answer recall@1=71% on NQ (previously 52%) and answer recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k retrieved units ($\approx$ 30K tokens) to an existing long-context LLM to perform zero-shot answer extraction. Without requiring any training, LongRAG achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our study offers insights into the future roadmap for combining RAG with long-context LLMs.

arxiv情報

著者 Ziyan Jiang,Xueguang Ma,Wenhu Chen
発行日 2024-06-21 17:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク