DocTabQA: Answering Questions from Long Documents Using Tables

要約

私たちは、DocTabQA と呼ばれる質問応答 (QA) の新しい問題設定を研究しています。
この設定では、長い文書が与えられた場合、その目標は、文書の内容から直接得られる構造化された表に回答を整理することで質問に答えることです。
主に非構造化テキストに依存して応答を作成する従来の QA アプローチとは異なり、DocTabQA は、情報を明確かつ系統的に伝えるための応答として構造化テーブルを活用し、それによってユーザーの理解を強化し、データ ポイント間の関係を強調することを目的としています。
私たちの知る限り、この問題はこれまで調査されていませんでした。
このペーパーでは、手動で注釈が付けられた 1.5k の質問と表のペアを伴う 300 の財務文書を含む QTabA データセットを紹介します。
最初に、GPT-4 などの大規模言語モデル (LLM) を活用してベースラインを確立します。
ただし、LLM が長い入力シーケンスから複雑で構造化された出力を生成するという任務を負った場合、困難に直面することは広く知られています。
これらの課題を克服するために、DocTabTalk と呼ばれる 2 段階のフレームワークを紹介します。このフレームワークは、最初に広範な文書から関連する文を取得し、その後、これらの特定された文に基づいて階層テーブルを生成します。
DocTabTalk には、AlignLLaMA と TabTalk という 2 つの重要な技術革新が組み込まれています。これらは、GPT-4 が DocTabQA に取り組むのを支援するように特別に調整されており、組織化と明瞭さが向上した、適切に構造化された階層テーブルを生成できるようになります。
QTabA と RotoWire データセットの両方に対して行われた包括的な実験評価により、DocTabTalk が、提案した DocTabQA タスクとテーブル生成タスクにおける GPT-4 のパフォーマンスを大幅に向上させることが実証されました。
コードとデータセットは、さらなる調査のために https://github.com/SmileWHC/DocTabQA で入手できます。

要約(オリジナル)

We study a new problem setting of question answering (QA), referred to as DocTabQA. Within this setting, given a long document, the goal is to respond to questions by organizing the answers into structured tables derived directly from the document’s content. Unlike traditional QA approaches which predominantly rely on unstructured text to formulate responses, DocTabQA aims to leverage structured tables as answers to convey information clearly and systematically, thereby enhancing user comprehension and highlighting relationships between data points. To the best of our knowledge, this problem has not been previously explored. In this paper, we introduce the QTabA dataset, encompassing 300 financial documents, accompanied by manually annotated 1.5k question-table pairs. Initially, we leverage Large Language Models (LLMs) such as GPT-4 to establish a baseline. However, it is widely acknowledged that LLMs encounter difficulties when tasked with generating intricate, structured outputs from long input sequences. To overcome these challenges, we present a two-stage framework, called DocTabTalk, which initially retrieves relevant sentences from extensive documents and subsequently generates hierarchical tables based on these identified sentences. DocTabTalk incorporates two key technological innovations: AlignLLaMA and TabTalk, which are specifically tailored to assist GPT-4 in tackling DocTabQA, enabling it to generate well-structured, hierarchical tables with improved organization and clarity. Comprehensive experimental evaluations conducted on both QTabA and RotoWire datasets demonstrate that our DocTabTalk significantly enhances the performances of the GPT-4 in our proposed DocTabQA task and the table generation task. The code and dataset are available at https://github.com/SmileWHC/DocTabQA for further research.

arxiv情報

著者 Haochen Wang,Kai Hu,Haoyu Dong,Liangcai Gao
発行日 2024-08-21 10:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク