要約
この文書では、インドの言語に焦点を当てた新しい多言語かつ大規模並列見出し要約コーパスである PMIndiaSum を紹介します。
私たちのコーパスは 4 つの言語族、14 の言語、およびこれまでで最大の 196 の言語ペアをカバーしています。
すべての異言語ペアにテストの場を提供します。
データの取得、処理、品質保証など、コーパスを構築するためのワークフローを詳しく説明します。
さらに、微調整、プロンプト、翻訳と要約による、単言語、クロスリンガル、および多言語の要約のベンチマークを公開します。
実験結果は、インドのテキストの要約を支援する上で私たちのデータが重要な役割を果たしていることを裏付けています。
私たちのデータセットは公開されており、自由に変更および再配布できます。
要約(オリジナル)
This paper introduces PMIndiaSum, a new multilingual and massively parallel headline summarization corpus focused on languages in India. Our corpus covers four language families, 14 languages, and the largest to date, 196 language pairs. It provides a testing ground for all cross-lingual pairs. We detail our workflow to construct the corpus, including data acquisition, processing, and quality assurance. Furthermore, we publish benchmarks for monolingual, cross-lingual, and multilingual summarization by fine-tuning, prompting, as well as translate-and-summarize. Experimental results confirm the crucial role of our data in aiding the summarization of Indian texts. Our dataset is publicly available and can be freely modified and re-distributed.
arxiv情報
著者 | Ashok Urlana,Pinzhen Chen,Zheng Zhao,Shay B. Cohen,Manish Shrivastava,Barry Haddow |
発行日 | 2023-05-15 17:41:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google