SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic Mistakes

要約

人間による注釈付きの評価なしで、テキスト生成の品質を評価するための一般的な指標をトレーニングすることは可能ですか?
既存の学習済みメトリクスは、テキスト生成タスク全体で満足のいくパフォーマンスが得られないか、特定のタスクのトレーニングに人間による評価が必要です。
この論文では、テキスト生成評価のためのモデルベースのメトリクスをトレーニングするための自己教師ありアプローチである SESCORE2 を提案します。
重要な概念は、コーパスから取得した文を混乱させることによって現実的なモデルの間違いを合成することです。
SESCORE2 の主な利点は、信頼性の高い重大度推定を提供しながら、他の多くの言語への拡張が容易であることです。
3 つの言語にわたる 4 つのテキスト生成タスクで SESCORE2 と以前の方法を評価しました。
SESCORE2 は、4 つのテキスト生成評価ベンチマークで教師なしメトリック PRISM を上回り、Kendall で 0.078 改善しました。
驚くべきことに、SESCORE2 は複数のテキスト生成タスクにおいて教師あり BLEURT や COMET よりも優れたパフォーマンスを発揮します。
コードとデータは https://github.com/xu1998hz/SEScore2 で入手できます。

要約(オリジナル)

Is it possible to train a general metric for evaluating text generation quality without human annotated ratings? Existing learned metrics either perform unsatisfactorily across text generation tasks or require human ratings for training on specific tasks. In this paper, we propose SESCORE2, a self-supervised approach for training a model-based metric for text generation evaluation. The key concept is to synthesize realistic model mistakes by perturbing sentences retrieved from a corpus. The primary advantage of the SESCORE2 is its ease of extension to many other languages while providing reliable severity estimation. We evaluate SESCORE2 and previous methods on four text generation tasks across three languages. SESCORE2 outperforms unsupervised metric PRISM on four text generation evaluation benchmarks, with a Kendall improvement of 0.078. Surprisingly, SESCORE2 even outperforms the supervised BLEURT and COMET on multiple text generation tasks. The code and data are available at https://github.com/xu1998hz/SEScore2.

arxiv情報

著者 Wenda Xu,Xian Qian,Mingxuan Wang,Lei Li,William Yang Wang
発行日 2023-07-07 17:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク