NewsQs: Multi-Source Question Generation for the Inquiring Mind

要約

複数のニュース ドキュメントに対する質問と回答のペアを提供するデータセットである NewsQs (ニュースキュー) を紹介します。
NewsQ を作成するために、News On the Web コーパスの FAQ スタイルのニュース記事に基づいて微調整された T5-Large モデルによって自動的に生成された質問を使用して、従来の複数文書要約データセットを強化します。
人間による評価で測定したところ、制御コードを使用してモデルを微調整すると、制御コードを使用しない同じモデルよりも、許容できると判断される質問が生成されることが多くなることを示します。
人間の注釈との相関性が高い QNLI モデルを使用してデータをフィルタリングします。
私たちは、クエリベースの複数文書の要約における今後の作業のためのリソースとして、高品質の質問、回答、および文書クラスターの最終データセットをリリースします。

要約(オリジナル)

We present NewsQs (news-cues), a dataset that provides question-answer pairs for multiple news documents. To create NewsQs, we augment a traditional multi-document summarization dataset with questions automatically generated by a T5-Large model fine-tuned on FAQ-style news articles from the News On the Web corpus. We show that fine-tuning a model with control codes produces questions that are judged acceptable more often than the same model without them as measured through human evaluation. We use a QNLI model with high correlation with human annotations to filter our data. We release our final dataset of high-quality questions, answers, and document clusters as a resource for future work in query-based multi-document summarization.

arxiv情報

著者 Alyssa Hwang,Kalpit Dixit,Miguel Ballesteros,Yassine Benajiba,Vittorio Castelli,Markus Dreyer,Mohit Bansal,Kathleen McKeown
発行日 2024-02-28 16:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク