A Question Answering Framework for Decontextualizing User-facing Snippets from Scientific Documents

要約

実世界の多くのアプリケーション(メモ取り、検索など)では、文書から文や段落を抽出し、そのスニペットをソース文書以外の人間に見せる必要がある。しかし、スニペットには元の文書からの文脈がないため、ユーザーはスニペットを理解するのが難しいと感じるかもしれない。本研究では、言語モデルを用いて、科学文書からのスニペットをそれ自体で読めるように書き換える。まず、編集箇所を明確にすることや、他の文書への参照を扱うことなど、このユーザー向けの非文脈化タスクの要件と課題を定義する。次に、このタスクを3つの段階(質問生成、質問回答、書き換え)に分解するフレームワークを提案する。このフレームワークを用いて、経験豊富な科学論文読者から金の脱文脈化を収集する。次に、最新の商用言語モデルとオープンソース言語モデルを用いて様々な実験を行い、我々のタスクに最も適した、欠落しているが関連性のある情報をモデルに提供する方法を特定する。最後に、QaDecontextを開発する。QaDecontextは、我々のフレームワークから着想を得たシンプルなプロンプト戦略であり、end-to-endプロンプトよりも改善される。最後に、書き換えは容易であるが、質問生成と回答は現在のモデルにとって依然として困難であるという分析結果を示す。

要約(オリジナル)

Many real-world applications (e.g., note taking, search) require extracting a sentence or paragraph from a document and showing that snippet to a human outside of the source document. Yet, users may find snippets difficult to understand as they lack context from the original document. In this work, we use language models to rewrite snippets from scientific documents to be read on their own. First, we define the requirements and challenges for this user-facing decontextualization task, such as clarifying where edits occur and handling references to other documents. Second, we propose a framework that decomposes the task into three stages: question generation, question answering, and rewriting. Using this framework, we collect gold decontextualizations from experienced scientific article readers. We then conduct a range of experiments across state-of-the-art commercial and open-source language models to identify how to best provide missing-but-relevant information to models for our task. Finally, we develop QaDecontext, a simple prompting strategy inspired by our framework that improves over end-to-end prompting. We conclude with analysis that finds, while rewriting is easy, question generation and answering remain challenging for today’s models.

arxiv情報

著者 Benjamin Newman,Luca Soldaini,Raymond Fok,Arman Cohan,Kyle Lo
発行日 2023-12-01 00:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク