DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation

要約

大規模言語モデル (LLM) の最近の進歩により、さまざまな自然言語処理 (NLP) タスク全体のパフォーマンスが大幅に向上しました。
ただし、LLM はパラメトリック記憶の限界により、非事実的な応答を生成するのに依然として苦労しています。
検索拡張生成 (RAG) システムは、外部の知識を検索モジュールに組み込むことでこの問題に対処します。
しかし、成功にもかかわらず、現在の RAG システムは、取得の失敗や、無関係な情報をフィルタリングする LLM の能力の限界といった課題に直面しています。
したがって、この研究では、取得した文書を文に分解し、無関係な文をフィルタリングして除外し、それらを再び一貫した文章に再構成する教師なしフレームワークである DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction) を提案します。
複数のオープンドメイン QA データセットで DSLR を実験的に検証し、その結果、DSLR が従来の固定サイズのパッセージに比べて RAG パフォーマンスを大幅に向上させることが実証されました。
さらに、当社の DSLR は、追加のトレーニングを必要とせずに、特定の現実的なシナリオでパフォーマンスを向上させ、RAG システムで取得したドキュメントを改良するための効果的かつ効率的なソリューションを提供します。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate DSLR on multiple open-domain QA datasets and the results demonstrate that DSLR significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our DSLR enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems.

arxiv情報

著者 Taeho Hwang,Soyeong Jeong,Sukmin Cho,SeungYoon Han,Jong C. Park
発行日 2024-08-20 10:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク