SEMQA: Semi-Extractive Multi-Source Question Answering

要約

最近提案された長文質問応答 (QA) システムは、大規模言語モデル (LLM) によってサポートされ、有望な機能を示しています。
しかし、生成された抽象的な回答を帰属させて検証することは困難な場合があり、その正確性を自動的に評価することは依然として継続的な課題です。
この作業では、複数の多様なソースを半抽出形式で要約することで、複数の回答がある質問に答えるための新しい QA タスクを導入します。
具体的には、半抽出型マルチソース QA (SEMQA) では、モデルが包括的な回答を出力する必要があると同時に、事実に基づいて引用されたスパン (指定された入力ソースからそのままコピーされたもの) と、これらのスパンをつなぎ合わせて 1 つのテキストにまとめる非事実的なフリーテキスト コネクターを混合する必要があります。
単一のまとまった通路。
この設定は、根拠は十分にあるものの制約のある抽出的 QA システムの出力と、より流暢ではあるが帰属が難しい完全に抽象的な回答との間のギャップを埋めるものです。
特に、高度な言語生成機能を活用する言語モデルの新しいモードが可能になると同時に、検証、解釈、評価が容易な設計上の詳細なインライン属性も生成されます。
このタスクを研究するために、自然な質問や生成された質問に対する人間が書いた半抽出的な回答を含む、この種の最初のデータセット QuoteSum を作成し、テキストベースの評価指標を定義します。
さまざまな設定でいくつかの LLM を試してみたところ、このタスクは驚くほど困難であることがわかり、このような統合機能の開発と研究における QuoteSum の重要性が実証されました。

要約(オリジナル)

Recently proposed long-form question answering (QA) systems, supported by large language models (LLMs), have shown promising capabilities. Yet, attributing and verifying their generated abstractive answers can be difficult, and automatically evaluating their accuracy remains an ongoing challenge. In this work, we introduce a new QA task for answering multi-answer questions by summarizing multiple diverse sources in a semi-extractive fashion. Specifically, Semi-extractive Multi-source QA (SEMQA) requires models to output a comprehensive answer, while mixing factual quoted spans — copied verbatim from given input sources — and non-factual free-text connectors that glue these spans together into a single cohesive passage. This setting bridges the gap between the outputs of well-grounded but constrained extractive QA systems and more fluent but harder to attribute fully abstractive answers. Particularly, it enables a new mode for language models that leverages their advanced language generation capabilities, while also producing fine in-line attributions by-design that are easy to verify, interpret, and evaluate. To study this task, we create the first dataset of this kind, QuoteSum, with human-written semi-extractive answers to natural and generated questions, and define text-based evaluation metrics. Experimenting with several LLMs in various settings, we find this task to be surprisingly challenging, demonstrating the importance of QuoteSum for developing and studying such consolidation capabilities.

arxiv情報

著者 Tal Schuster,Adam D. Lelkes,Haitian Sun,Jai Gupta,Jonathan Berant,William W. Cohen,Donald Metzler
発行日 2023-11-08 18:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク