PCoQA: Persian Conversational Question Answering Dataset


会話型質問応答研究の追求において、私たちは、最初の \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A} 応答データセットである PCoQA を導入します。これは、以下の内容を含む情報探索ダイアログで構成されるリソースです。
合計 9,026 の文脈に応じた質問。
PCoQA は、以前の質問応答データセットと比較して、自由回答の非事実回答が多くなり、回答が長くなり、語彙の重複が少なくなるなど、新たな課題を提示するように設計されています。
このペーパーでは、包括的な PCoQA データセットを紹介するだけでなく、さまざまなベンチマーク モデルのパフォーマンスも報告します。
当社のモデルには、モデルのパフォーマンスを向上させるために活用されるベースライン モデルと事前トレーニングされたモデルが含まれています。
データセットとベンチマークは、Github ページから入手できます。


Humans seek information regarding a specific topic through performing a conversation containing a series of questions and answers. In the pursuit of conversational question answering research, we introduce the PCoQA, the first \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering dataset, a resource comprising information-seeking dialogs encompassing a total of 9,026 contextually-driven questions. Each dialog involves a questioner, a responder, and a document from the Wikipedia; The questioner asks several inter-connected questions from the text and the responder provides a span of the document as the answer for each question. PCoQA is designed to present novel challenges compared to previous question answering datasets including having more open-ended non-factual answers, longer answers, and fewer lexical overlaps. This paper not only presents the comprehensive PCoQA dataset but also reports the performance of various benchmark models. Our models include baseline models and pre-trained models, which are leveraged to boost the performance of the model. The dataset and benchmarks are available at our Github page.


著者 Hamed Hematian Hemati,Atousa Toghyani,Atena Souri,Sayed Hesam Alavian,Hossein Sameti,Hamid Beigy
発行日 2023-12-07 15:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク