Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models

要約

従来のRAG(Retrieval-Augmented Generation)アーキテクチャの使用は、多様な文書から情報を検索するのに有効であることが証明されている。しかし、特に複雑な表構造を含むPDF文書内の複雑な表クエリを扱う際に課題が生じる。本研究では、RAGベースのシステムにおいて複雑な表クエリの精度を高める革新的なアプローチを紹介する。我々の方法論では、検索データベースにPDFを格納し、表形式のコンテンツを個別に抽出する。抽出された表は、ヘッダを対応する値で連結する、コンテキストのエンリッチメントのプロセスを経る。エンリッチされたデータの包括的な理解を保証するために、RAGアーキテクチャ内の要約のためにLlama-2-chat言語モデルの微調整されたバージョンを採用する。さらに、ChatGPT 3.5 APIを使用し、ワンショットのプロンプトにより、表形式のデータを文脈的なセンスで補強します。このエンリッチされたデータは、他のPDFと共に検索データベースに供給される。我々のアプローチは、複雑なテーブルクエリの精度を大幅に向上させ、情報検索における長年の課題に対する有望な解決策を提供することを目的としている。

要約(オリジナル)

The conventional use of the Retrieval-Augmented Generation (RAG) architecture has proven effective for retrieving information from diverse documents. However, challenges arise in handling complex table queries, especially within PDF documents containing intricate tabular structures.This research introduces an innovative approach to enhance the accuracy of complex table queries in RAG-based systems. Our methodology involves storing PDFs in the retrieval database and extracting tabular content separately. The extracted tables undergo a process of context enrichment, concatenating headers with corresponding values. To ensure a comprehensive understanding of the enriched data, we employ a fine-tuned version of the Llama-2-chat language model for summarisation within the RAG architecture. Furthermore, we augment the tabular data with contextual sense using the ChatGPT 3.5 API through a one-shot prompt. This enriched data is then fed into the retrieval database alongside other PDFs. Our approach aims to significantly improve the precision of complex table queries, offering a promising solution to a longstanding challenge in information retrieval.

arxiv情報

著者 Uday Allu,Biddwan Ahmed,Vishesh Tripathi
発行日 2024-01-04 16:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク