Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering

要約

私たちは、長い文書の質問に答えるための証拠検索のタスクに取り組みます。これには、質問に答えるために文書内の関連する段落を見つけることが含まれます。
私たちは、さまざまな NLP タスクにわたって前例のないパフォーマンスを発揮する、ゼロショットの長い文書証拠検索タスクにおける大規模言語モデル (LLM) の適用可能性を評価することを目的としています。
ただし、現在、LLM は入力として限られたコンテキスト長を消費できるため、入力としてドキュメント チャンクを提供すると、グローバル コンテキストを見落とし、セグメント間の依存関係を捕捉できない可能性があります。
さらに、大規模な入力セットを直接供給すると、特にドキュメント全体を処理する場合に、多大な計算コストが発生する可能性があります (OpenAI の GPT バリアントなどのエンタープライズ API では金銭的費用が発生する可能性があります)。
これらの課題に対処するために、私たちは文書に一般的に見られる談話構造を利用する一連のテクニックを提案します。
この構造を利用することで、文書の凝縮された表現が作成され、さまざまな部分間の関係をより包括的に理解および分析できるようになります。
最良のゼロショット アプローチのパフォーマンスの $99.6\%$ を保持しながら、情報探索証拠検索セットアップで最良のアプローチによって使用されるトークンの合計の $26\%$ のみを処理します。
また、私たちのアプローチを \textit{self-ask} 推論エージェントと組み合わせて、複雑なマルチホップ質問応答で最高のゼロショット パフォーマンスを達成する方法も示します。これは、ゴールドを使用したゼロショット パフォーマンスにわずか $\約 4\%$ 足りません。
証拠。

要約(オリジナル)

We address the task of evidence retrieval for long document question answering, which involves locating relevant paragraphs within a document to answer a question. We aim to assess the applicability of large language models (LLMs) in the task of zero-shot long document evidence retrieval, owing to their unprecedented performance across various NLP tasks. However, currently the LLMs can consume limited context lengths as input, thus providing document chunks as inputs might overlook the global context while missing out on capturing the inter-segment dependencies. Moreover, directly feeding the large input sets can incur significant computational costs, particularly when processing the entire document (and potentially incurring monetary expenses with enterprise APIs like OpenAI’s GPT variants). To address these challenges, we propose a suite of techniques that exploit the discourse structure commonly found in documents. By utilizing this structure, we create a condensed representation of the document, enabling a more comprehensive understanding and analysis of relationships between different parts. We retain $99.6\%$ of the best zero-shot approach’s performance, while processing only $26\%$ of the total tokens used by the best approach in the information seeking evidence retrieval setup. We also show how our approach can be combined with \textit{self-ask} reasoning agent to achieve best zero-shot performance in complex multi-hop question answering, just $\approx 4\%$ short of zero-shot performance using gold evidence.

arxiv情報

著者 Inderjeet Nair,Shwetha Somasundaram,Apoorv Saxena,Koustava Goswami
発行日 2023-11-22 18:22:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク