PCoQA: Persian Conversational Question Answering Dataset

要約

人間は、一連の質問と回答を含む会話を行うことで、特定のトピックに関する情報を求めます。
会話型質問応答研究の追求において、私たちは、最初の \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A} 応答データセットである PCoQA を導入します。これは、以下の内容を含む情報探索ダイアログで構成されるリソースです。
合計 9,026 の文脈に応じた質問。
各ダイアログには、質問者、回答者、およびウィキペディアの文書が含まれます。
質問者はテキストからいくつかの相互に関連した質問をし、回答者は各質問に対する回答として文書の範囲を提供します。
PCoQA は、以前の質問応答データセットと比較して、自由回答の非事実回答が多くなり、回答が長くなり、語彙の重複が少なくなるなど、新たな課題を提示するように設計されています。
このペーパーでは、包括的な PCoQA データセットを紹介するだけでなく、さまざまなベンチマーク モデルのパフォーマンスも報告します。
当社のモデルには、モデルのパフォーマンスを向上させるために活用されるベースライン モデルと事前トレーニングされたモデルが含まれています。
データセットとベンチマークは、Github ページから入手できます。

要約(オリジナル)

Humans seek information regarding a specific topic through performing a conversation containing a series of questions and answers. In the pursuit of conversational question answering research, we introduce the PCoQA, the first \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering dataset, a resource comprising information-seeking dialogs encompassing a total of 9,026 contextually-driven questions. Each dialog involves a questioner, a responder, and a document from the Wikipedia; The questioner asks several inter-connected questions from the text and the responder provides a span of the document as the answer for each question. PCoQA is designed to present novel challenges compared to previous question answering datasets including having more open-ended non-factual answers, longer answers, and fewer lexical overlaps. This paper not only presents the comprehensive PCoQA dataset but also reports the performance of various benchmark models. Our models include baseline models and pre-trained models, which are leveraged to boost the performance of the model. The dataset and benchmarks are available at our Github page.

arxiv情報

著者 Hamed Hematian Hemati,Atousa Toghyani,Atena Souri,Sayed Hesam Alavian,Hossein Sameti,Hamid Beigy
発行日 2023-12-07 15:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク