要約
私たちは、要約の忠実性を評価するために既製の自然言語推論 (NLI) モデルを活用する既存のアプローチを研究し、これらは前提と仮説について考慮された粒度レベルのせいで最適ではないと主張します。
つまり、仮説として考えるより小さな内容単位は文であり、前提は一定数の文書文から構成される。
我々は、可変の前提サイズを使用し、要約文を短い仮説に単純化する新しいアプローチ、すなわち InFusE を提案します。
単一の短い文書の要約に焦点を当てた以前の研究から離れて、多様な要約タスクに対する NLI ベースの忠実性評価を分析します。
長い形式の要約 (長い文書と要約) と多様な要約タスク (会議や複数文書の要約など) で構成される新しいベンチマークである DiverSumm を紹介します。
実験では、InFusE はさまざまな要約タスクにわたって優れたパフォーマンスを実現しました。
コードとデータは https://github.com/HJZnlp/infuse で入手できます。
要約(オリジナル)
We study existing approaches to leverage off-the-shelf Natural Language Inference (NLI) models for the evaluation of summary faithfulness and argue that these are sub-optimal due to the granularity level considered for premises and hypotheses. That is, the smaller content unit considered as hypothesis is a sentence and premises are made up of a fixed number of document sentences. We propose a novel approach, namely InFusE, that uses a variable premise size and simplifies summary sentences into shorter hypotheses. Departing from previous studies which focus on single short document summarisation, we analyse NLI based faithfulness evaluation for diverse summarisation tasks. We introduce DiverSumm, a new benchmark comprising long form summarisation (long documents and summaries) and diverse summarisation tasks (e.g., meeting and multi-document summarisation). In experiments, InFusE obtains superior performance across the different summarisation tasks. Our code and data are available at https://github.com/HJZnlp/infuse.
arxiv情報
著者 | Huajian Zhang,Yumo Xu,Laura Perez-Beltrachini |
発行日 | 2024-02-27 15:57:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google