USB: A Unified Summarization Benchmark Across Tasks and Domains

要約

要約生成のタスクでモデルをトレーニングおよび評価するためのデータセットが豊富に存在します。しかし、これらのデータセットは多くの場合ヒューリスティックに導出されており、証拠の抽出や制御可能な要約など、要約のあらゆる側面の研究をサポートするのに十分な注釈がありません。
要約の証拠を明らかにし、その正しさを評価し、さまざまなトピックとの関連性を評価するなど、要約を多面的に理解する必要がある 8 つのタスクで構成されるベンチマークを紹介します。
このベンチマークでさまざまな方法を比較したところ、複数のタスクにおいて、中程度のサイズの微調整モデルが、はるかに大規模な少数ショット プロンプト言語モデルよりも一貫して優れていることがわかりました。
事実関連のタスクについては、既存のヒューリスティックを評価してトレーニング データを作成しました。その結果、それらのヒューリスティックでのトレーニングは、人間がラベルを付けた 20 倍の $20\time$ 少ないデータでのトレーニングよりもパフォーマンスが低いことがわかりました。
私たちのベンチマークは 6 つの異なるドメインからのデータで構成されており、トレーニングされたモデルのクロスドメインのパフォーマンスを調査できます。
一部のタスクでは、トレーニング データの取得元のドメインよりもトレーニング データの量が重要である一方、他のタスクでは、ターゲット ドメインからのデータに特化してトレーニングする方が、たとえ限定的であっても有益であることがわかりました。
私たちの取り組みは、さまざまなタスクで十分に注釈が付けられた要約ベンチマークのニーズを満たし、トレーニング データの品質、サイズ、領域の影響についての有用な洞察を提供します。

要約(オリジナル)

An abundance of datasets exist for training and evaluating models on the task of summary generation.However, these datasets are often derived heuristically, and lack sufficient annotations to support research into all aspects of summarization, such as evidence extraction and controllable summarization. We introduce a benchmark comprising 8 tasks that require multi-dimensional understanding of summarization, e.g., surfacing evidence for a summary, assessing its correctness, and gauging its relevance to different topics. We compare various methods on this benchmark and discover that on multiple tasks, moderately-sized fine-tuned models consistently outperform much larger few-shot prompted language models. For factuality related tasks, we also evaluate existing heuristics to create training data and find that training on them performs worse than training on $20\times$ less human-labeled data. Our benchmark consists of data from 6 different domains, allowing us to study cross-domain performance of trained models. We find that for some tasks, the amount of training data matters more than the domain where it comes from, while for other tasks training specifically on data from the target domain, even if limited, is more beneficial. Our work fulfills the need for a well-annotated summarization benchmark with diverse tasks, and provides useful insights about the impact of the quality, size and domain of training data.

arxiv情報

著者 Kundan Krishna,Prakhar Gupta,Sanjana Ramprasad,Byron C. Wallace,Jeffrey P. Bigham,Zachary C. Lipton
発行日 2023-05-23 17:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク