OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization

要約

自動要約モデルのパフォーマンスは近年劇的に向上しました。
しかし、実際のシナリオでは、特に、このホワイトペーパーで対象とする有用なアスペクトベースの要約設定のように、目的を絞った要約が求められる場合には、ユーザーの特定の情報ニーズを満たすにはまだギャップがあります。
この設定に関するこれまでのデータセットと研究は主に、事前定義された限られた側面に焦点を当て、単一のドキュメント入力のみに焦点を当てたり、合成データに依存したりしていました。
より現実的なシナリオの研究を進めるために、マルチドキュメント \textit{open} アスペクトベースの要約のベンチマークである OpenAsp を導入します。
このベンチマークは、新規でコスト効率の高いアノテーション プロトコルを使用して作成されます。このプロトコルにより、オープン アスペクト データセットが既存の汎用マルチドキュメント要約データセットから派生されます。
OpenAsp のプロパティを分析し、その高品質なコンテンツを紹介します。
さらに、OpenAsp で実現される現実的なオープン アスペクト設定は、大規模な言語モデルだけでなく、現在の最先端の要約モデルにとっても課題となることを示します。

要約(オリジナル)

The performance of automatic summarization models has improved dramatically in recent years. Yet, there is still a gap in meeting specific information needs of users in real-world scenarios, particularly when a targeted summary is sought, such as in the useful aspect-based summarization setting targeted in this paper. Previous datasets and studies for this setting have predominantly concentrated on a limited set of pre-defined aspects, focused solely on single document inputs, or relied on synthetic data. To advance research on more realistic scenarios, we introduce OpenAsp, a benchmark for multi-document \textit{open} aspect-based summarization. This benchmark is created using a novel and cost-effective annotation protocol, by which an open aspect dataset is derived from existing generic multi-document summarization datasets. We analyze the properties of OpenAsp showcasing its high-quality content. Further, we show that the realistic open-aspect setting realized in OpenAsp poses a challenge for current state-of-the-art summarization models, as well as for large language models.

arxiv情報

著者 Shmuel Amar,Liat Schiff,Ori Ernst,Asi Shefer,Ori Shapira,Ido Dagan
発行日 2023-12-07 17:06:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク