KGConv, a Conversational Corpus grounded in Wikidata

要約

私たちは、各質問と回答のペアがウィキデータの事実に基づいている 71,000 の会話からなる大規模な会話コーパスである KGConv を紹介します。
会話には平均 8.6 の質問が含まれており、ウィキデータのファクトごとに、テンプレート、人間による注釈、手作りのルール、質問書き換えニューラル モデルを使用して、対応する質問の複数のバリエーション (平均 12) を提供します。
私たちは、知識ベースの会話型質問生成タスクのベースラインを提供します。
KGConv はさらに、Wikidata トリプルからのシングルターン質問生成、質問書き換え、会話またはナレッジ グラフからの質問応答、クイズ生成など、他の生成および分析タスクにも使用できます。

要約(オリジナル)

We present KGConv, a large, conversational corpus of 71k conversations where each question-answer pair is grounded in a Wikidata fact. Conversations contain on average 8.6 questions and for each Wikidata fact, we provide multiple variants (12 on average) of the corresponding question using templates, human annotations, hand-crafted rules and a question rewriting neural model. We provide baselines for the task of Knowledge-Based, Conversational Question Generation. KGConv can further be used for other generation and analysis tasks such as single-turn question generation from Wikidata triples, question rewriting, question answering from conversation or from knowledge graphs and quiz generation.

arxiv情報

著者 Quentin Brabant,Gwenole Lecorve,Lina M. Rojas-Barahona,Claire Gardent
発行日 2023-08-29 13:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク