要約
要約の品質評価のための既存のベンチマークは、多くの場合、多様な入力シナリオを欠いており、狭く定義された次元 (忠実性など) に焦点を当てており、主観的で粗いアノテーション スキームと格闘しています。
これらの欠点に対処するために、入力コンテキストの範囲 (ドメイン、長さなど) を拡張し、きめの細かい多次元の注釈を提供する UniSumEval ベンチマークを作成します。
データ作成には AI 支援を使用し、幻覚を引き起こす可能性のある入力テキストを特定し、ヒューマン アノテーターがきめ細かいアノテーション タスクの難易度を軽減できるように支援します。
UniSumEval を使用して、9 つの最新言語モデルをサマライザーとしてベンチマークし、さまざまな入力コンテキストと評価次元にわたるパフォーマンスに関する洞察を提供します。
さらに、SOTA 自動要約評価ツールを徹底的に比較します。
ベンチマーク データは https://github.com/DISL-Lab/UniSumEval-v1.0 で入手できます。
要約(オリジナル)
Existing benchmarks for summarization quality evaluation often lack diverse input scenarios, focus on narrowly defined dimensions (e.g., faithfulness), and struggle with subjective and coarse-grained annotation schemes. To address these shortcomings, we create UniSumEval benchmark, which extends the range of input context (e.g., domain, length) and provides fine-grained, multi-dimensional annotations. We use AI assistance in data creation, identifying potentially hallucinogenic input texts, and also helping human annotators reduce the difficulty of fine-grained annotation tasks. With UniSumEval, we benchmark nine latest language models as summarizers, offering insights into their performance across varying input contexts and evaluation dimensions. Furthermore, we conduct a thorough comparison of SOTA automated summary evaluators. Our benchmark data will be available at https://github.com/DISL-Lab/UniSumEval-v1.0.
arxiv情報
著者 | Yuho Lee,Taewon Yun,Jason Cai,Hang Su,Hwanjun Song |
発行日 | 2024-10-01 07:11:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google