Echoes from Alexandria: A Large Resource for Multilingual Book Summarization

要約

近年、テキスト要約の研究は主にニュース領域に焦点を当ててきました。ニュース領域では、テキストは通常​​短く、強力なレイアウト機能を備えています。
書籍全体を要約するという作業には、サイズが限られており、英語でしか利用できないため、現在のリソースでは取り組むのが難しい追加の課題が生じます。
これらの制限を克服するために、多言語で書籍を要約するための大きなリソースである「Echoes from Alexandria」、または短縮形「Echoes」を紹介します。
Echoes は 3 つの新しいデータセットを備えています。i) 多言語書籍要約用の Echo-Wiki、ii) 非常に圧縮された多言語書籍要約用の Echo-XSum、および iii) 抽出的な書籍要約用の Echo-FairySum。
私たちの知る限り、Echoes には数千冊の書籍と要約があり、最大のリソースであり、5 つの言語と 25 の言語ペアを備えた最初の多言語リソースです。
Echoes に加えて、私たちは新しい抽出後に抽象的なベースラインも導入しています。実験結果と生成された要約の手動分析によって裏付けられ、このベースラインは純粋に抽象的なアプローチよりも書籍の要約に適していると主張します。
私たちは、多言語書籍要約における革新的な研究を促進することを期待して、リソースとソフトウェアを https://github.com/Babelscape/echoes-from-alexandria でリリースしています。

要約(オリジナル)

In recent years, research in text summarization has mainly focused on the news domain, where texts are typically short and have strong layout features. The task of full-book summarization presents additional challenges which are hard to tackle with current resources, due to their limited size and availability in English only. To overcome these limitations, we present ‘Echoes from Alexandria’, or in shortened form, ‘Echoes’, a large resource for multilingual book summarization. Echoes features three novel datasets: i) Echo-Wiki, for multilingual book summarization, ii) Echo-XSum, for extremely-compressive multilingual book summarization, and iii) Echo-FairySum, for extractive book summarization. To the best of our knowledge, Echoes, with its thousands of books and summaries, is the largest resource, and the first to be multilingual, featuring 5 languages and 25 language pairs. In addition to Echoes, we also introduce a new extractive-then-abstractive baseline, and, supported by our experimental results and manual analysis of the summaries generated, we argue that this baseline is more suitable for book summarization than purely-abstractive approaches. We release our resource and software at https://github.com/Babelscape/echoes-from-alexandria in the hope of fostering innovative research in multilingual book summarization.

arxiv情報

著者 Alessandro Scirè,Simone Conia,Simone Ciciliano,Roberto Navigli
発行日 2023-06-07 11:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク