要約
インターネットには矛盾する事実や意見が多数含まれているため、知識の矛盾を解決することは質問応答 (QA) タスクにおいて重要な課題です。
一部の研究では、複数の有効な回答が存在する曖昧な設定に取り組むことで進歩がありましたが、これらのアプローチでは出典の引用が省略されていることが多く、各回答の事実性をユーザーが評価する必要があります。
一方、引用生成に関する既存の研究は、単一の答えを持つ明確な設定に焦点を当てており、現実世界のシナリオの複雑さに対処できていません。
両方の側面が重要であるにもかかわらず、これらを組み合わせた先行研究はなく、QA システムの開発には大きなギャップが残されています。
この研究では、複数の有効な回答が存在する曖昧な設定で出典を引用する QA という新しいタスクを提案することで、このギャップを埋めます。
この分野の研究を促進するために、私たちは以下から構成される包括的なフレームワークを作成します。(1) 既存の 3 つの読解データセットを、気を散らすものや言い換えなど、さまざまな曖昧な設定にわたる引用メタデータで拡張することによって得られる 5 つの新しいデータセット。
(2) 現実世界の自然に発生するコンテキストを特徴とする最初のあいまいなマルチホップ QA データセット。
(3) モデルのパフォーマンスを評価するための 2 つの新しい指標。
(4) 5 つの大きな言語モデルに対する、ルールベースのプロンプトと微調整のアプローチを使用したいくつかの強力なベースライン。
私たちは、この新しいタスク、データセット、メトリクス、ベースラインがコミュニティに刺激を与え、QA 研究の限界を押し広げ、より信頼性が高く解釈可能なシステムを開発することを願っています。
要約(オリジナル)
Resolving knowledge conflicts is a crucial challenge in Question Answering (QA) tasks, as the internet contains numerous conflicting facts and opinions. While some research has made progress in tackling ambiguous settings where multiple valid answers exist, these approaches often neglect to provide source citations, leaving users to evaluate the factuality of each answer. On the other hand, existing work on citation generation has focused on unambiguous settings with single answers, failing to address the complexity of real-world scenarios. Despite the importance of both aspects, no prior research has combined them, leaving a significant gap in the development of QA systems. In this work, we bridge this gap by proposing the novel task of QA with source citation in ambiguous settings, where multiple valid answers exist. To facilitate research in this area, we create a comprehensive framework consisting of: (1) five novel datasets, obtained by augmenting three existing reading comprehension datasets with citation meta-data across various ambiguous settings, such as distractors and paraphrasing; (2) the first ambiguous multi-hop QA dataset featuring real-world, naturally occurring contexts; (3) two new metrics to evaluate models’ performances; and (4) several strong baselines using rule-based, prompting, and finetuning approaches over five large language models. We hope that this new task, datasets, metrics, and baselines will inspire the community to push the boundaries of QA research and develop more trustworthy and interpretable systems.
arxiv情報
著者 | Sagi Shaier,Ari Kobren,Philip Ogren |
発行日 | 2024-10-29 17:12:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google