ACLSum: A New Dataset for Aspect-based Summarization of Scientific Publications

要約

これまで、要約データセットの開発に向けて広範な努力が払われてきました。
しかし、これらのリソースの大部分は、通常は Web データ クローリングを通じて (半) 自動的に生成されており、その結果、要約システムのトレーニングと評価のためのリソースが標準以下となり、おそらくグラウンドの生成に関連する多大なコストが原因で品質が低下しています。
特に多様な言語と専門領域に関する真実の要約。
この問題に対処するために、分野の専門家によって慎重に作成され評価された新しい要約データセットである ACLSum を紹介します。
以前のデータセットとは対照的に、ACLSum は科学論文の多面的な要約を容易にし、課題、アプローチ、結果を詳細にカバーします。
広範な実験を通じて、リソースの品質と、事前トレーニングされた言語モデルと最先端の大規模言語モデル (LLM) に基づくモデルのパフォーマンスを評価します。
さらに、自動的に発見された側面に基づいて、学術領域内での抽出的要約と抽象的要約の有効性を調査します。
私たちの結果は、一般的な領域における以前の発見を裏付けており、エンドツーエンドのアスペクトベースの要約の一般的な優位性を示しています。
データは https://github.com/sabamchan/aclsum で公開されています。

要約(オリジナル)

Extensive efforts in the past have been directed toward the development of summarization datasets. However, a predominant number of these resources have been (semi)-automatically generated, typically through web data crawling, resulting in subpar resources for training and evaluating summarization systems, a quality compromise that is arguably due to the substantial costs associated with generating ground-truth summaries, particularly for diverse languages and specialized domains. To address this issue, we present ACLSum, a novel summarization dataset carefully crafted and evaluated by domain experts. In contrast to previous datasets, ACLSum facilitates multi-aspect summarization of scientific papers, covering challenges, approaches, and outcomes in depth. Through extensive experiments, we evaluate the quality of our resource and the performance of models based on pretrained language models and state-of-the-art large language models (LLMs). Additionally, we explore the effectiveness of extractive versus abstractive summarization within the scholarly domain on the basis of automatically discovered aspects. Our results corroborate previous findings in the general domain and indicate the general superiority of end-to-end aspect-based summarization. Our data is released at https://github.com/sobamchan/aclsum.

arxiv情報

著者 Sotaro Takeshita,Tommaso Green,Ines Reinig,Kai Eckert,Simone Paolo Ponzetto
発行日 2024-03-08 13:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク