RISE: Leveraging Retrieval Techniques for Summarization Evaluation

要約

自動生成されたテキストの概要を評価するのは困難な作業です。
興味深いアプローチは数多くありますが、それらは依然として人間の評価には達していません。
情報検索の手法を活用して概要を評価するための新しいアプローチである RISE を紹介します。
RISE は、最初にデュアル エンコーダ検索セットアップを使用して検索タスクとしてトレーニングされ、その後、ゴールド参照概要を使用せずに、入力ドキュメントを指定して生成された概要を評価するために利用できます。
RISE は、評価に利用できる参照概要が存在しない可能性がある新しいデータセットを扱う場合に特に適しています。
私たちは SummEval ベンチマーク (Fabbri et al., 2021) で包括的な実験を実施し、その結果、要約評価に対する過去の多くのアプローチと比較して、RISE が人間の評価とより高い相関関係を持っていることが示されました。
さらに、RISE は、言語間でのデータ効率と汎用性も実証します。

要約(オリジナル)

Evaluating automatically-generated text summaries is a challenging task. While there have been many interesting approaches, they still fall short of human evaluations. We present RISE, a new approach for evaluating summaries by leveraging techniques from information retrieval. RISE is first trained as a retrieval task using a dual-encoder retrieval setup, and can then be subsequently utilized for evaluating a generated summary given an input document, without gold reference summaries. RISE is especially well suited when working on new datasets where one may not have reference summaries available for evaluation. We conduct comprehensive experiments on the SummEval benchmark (Fabbri et al., 2021) and the results show that RISE has higher correlation with human evaluations compared to many past approaches to summarization evaluation. Furthermore, RISE also demonstrates data-efficiency and generalizability across languages.

arxiv情報

著者 David Uthus,Jianmo Ni
発行日 2023-05-22 16:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク