A Dataset of Open-Domain Question Answering with Multiple-Span Answers

要約

マルチスパン質問応答 (MSQA) のタスクとしても知られるマルチスパン回答抽出は、複雑な質問に答えるためにテキストから複数の情報を抽出する必要があるため、実際のアプリケーションにとって重要です。
英語の MSQA 研究では活発な研究が行われ急速に進歩しているにもかかわらず、中国語で公開されている MSQA ベンチマークが著しく不足しています。
MSQA データセットを構築するためのこれまでの取り組みでは、主にエンティティ中心のコンテキスト化が強調されていたため、事実に関する質問を収集することに偏り、より詳細な説明的な回答が必要な質問が見落とされる可能性がありました。
これらの制限を克服するために、我々は CLEAN を紹介します。CLEAN は、記述的な回答を必要とするかなりの数のインスタンスを含む、幅広いオープンドメインの主題を含む、中国の包括的なマルチスパン質問応答データセットです。
さらに、CLEAN のベースラインとして、関連文献から確立されたモデルを提供します。
実験結果と分析は、コミュニティ向けに新しく提案された CLEAN データセットの特徴と課題を示しています。
私たちのデータセット CLEAN は、zhiyiluo.site/misc/clean_v1.0_sample.json で公開されます。

要約(オリジナル)

Multi-span answer extraction, also known as the task of multi-span question answering (MSQA), is critical for real-world applications, as it requires extracting multiple pieces of information from a text to answer complex questions. Despite the active studies and rapid progress in English MSQA research, there is a notable lack of publicly available MSQA benchmark in Chinese. Previous efforts for constructing MSQA datasets predominantly emphasized entity-centric contextualization, resulting in a bias towards collecting factoid questions and potentially overlooking questions requiring more detailed descriptive responses. To overcome these limitations, we present CLEAN, a comprehensive Chinese multi-span question answering dataset that involves a wide range of open-domain subjects with a substantial number of instances requiring descriptive answers. Additionally, we provide established models from relevant literature as baselines for CLEAN. Experimental results and analysis show the characteristics and challenge of the newly proposed CLEAN dataset for the community. Our dataset, CLEAN, will be publicly released at zhiyiluo.site/misc/clean_v1.0_ sample.json.

arxiv情報

著者 Zhiyi Luo,Yingying Zhang,Shuyun Luo,Ying Zhao,Wentao Lyu
発行日 2024-02-15 13:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク