NewsQs: Multi-Source Question Generation for the Inquiring Mind


複数のニュース ドキュメントに対する質問と回答のペアを提供するデータセットである NewsQs (ニュースキュー) を紹介します。
NewsQ を作成するために、News On the Web コーパスの FAQ スタイルのニュース記事に基づいて微調整された T5-Large モデルによって自動的に生成された質問を使用して、従来の複数文書要約データセットを強化します。
人間の注釈との相関性が高い QNLI モデルを使用してデータをフィルタリングします。


We present NewsQs (news-cues), a dataset that provides question-answer pairs for multiple news documents. To create NewsQs, we augment a traditional multi-document summarization dataset with questions automatically generated by a T5-Large model fine-tuned on FAQ-style news articles from the News On the Web corpus. We show that fine-tuning a model with control codes produces questions that are judged acceptable more often than the same model without them as measured through human evaluation. We use a QNLI model with high correlation with human annotations to filter our data. We release our final dataset of high-quality questions, answers, and document clusters as a resource for future work in query-based multi-document summarization.


著者 Alyssa Hwang,Kalpit Dixit,Miguel Ballesteros,Yassine Benajiba,Vittorio Castelli,Markus Dreyer,Mohit Bansal,Kathleen McKeown
発行日 2024-02-28 16:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク