要約
質問応答 (QA) における検索拡張生成 (RAG) の有効性と効率の両方を強化する抽出コンテキスト圧縮フレームワークである EXIT を紹介します。
現在の RAG システムは、検索モデルが最も関連性の高いドキュメントをランク付けできない場合に問題が発生することが多く、レイテンシと精度を犠牲にしてより多くのコンテキストが含まれることになります。
抽象的な圧縮方法はトークン数を大幅に削減できますが、トークンごとの生成プロセスによりエンドツーエンドの待ち時間が大幅に増加します。
逆に、既存の抽出方法は待ち時間を短縮しますが、独立した非適応的な文の選択に依存しており、コンテキスト情報を完全に活用できません。
EXIT は、文脈上の依存関係を維持しながら、取得した文書から文を分類することでこれらの制限に対処し、クエリの複雑さと検索品質に適応する並列化可能な文脈認識型抽出を可能にします。
シングルホップとマルチホップの両方の QA タスクに関する評価では、EXIT が QA 精度において既存の圧縮方法だけでなく、非圧縮のベースラインさえも常に上回っており、推論時間とトークン数も大幅に削減していることが示されています。
EXIT は、有効性と効率の両方を向上させることで、RAG パイプラインでスケーラブルで高品質の QA ソリューションを開発するための有望な方向性を提供します。
私たちのコードは https://github.com/ThisIsHwang/EXIT で入手できます。
要約(オリジナル)
We introduce EXIT, an extractive context compression framework that enhances both the effectiveness and efficiency of retrieval-augmented generation (RAG) in question answering (QA). Current RAG systems often struggle when retrieval models fail to rank the most relevant documents, leading to the inclusion of more context at the expense of latency and accuracy. While abstractive compression methods can drastically reduce token counts, their token-by-token generation process significantly increases end-to-end latency. Conversely, existing extractive methods reduce latency but rely on independent, non-adaptive sentence selection, failing to fully utilize contextual information. EXIT addresses these limitations by classifying sentences from retrieved documents – while preserving their contextual dependencies – enabling parallelizable, context-aware extraction that adapts to query complexity and retrieval quality. Our evaluations on both single-hop and multi-hop QA tasks show that EXIT consistently surpasses existing compression methods and even uncompressed baselines in QA accuracy, while also delivering substantial reductions in inference time and token count. By improving both effectiveness and efficiency, EXIT provides a promising direction for developing scalable, high-quality QA solutions in RAG pipelines. Our code is available at https://github.com/ThisIsHwang/EXIT
arxiv情報
著者 | Taeho Hwang,Sukmin Cho,Soyeong Jeong,Hoyun Song,SeungYoon Han,Jong C. Park |
発行日 | 2024-12-18 13:08:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google