On the Blind Spots of Model-Based Evaluation Metrics for Text Generation

要約

タイトル:テキスト生成のモデルベース評価尺度の盲点について
要約:
– 本文では、合成データによるストレステストを用いた強い評価尺度のロバストネス分析の手法について探求する。
– 開放的生成、翻訳、サマリゼーションタスクに基づいた事前学習言語モデルに基づく最近提案された評価尺度を調べ、存在する指標に対しての盲点、偏向性、回避策の提供を議論する。
– 研究した評価尺度についての限界、MAUVEは生成の先頭あるいは中間部分に対して無関心であることなどの問題が見出されている。
– 盲点の原因についても調査が行われ、テキスト生成のより信頼性の高い評価のための実用的な回避策が提供されている。
– 本文中で使用されたコードとデータは、https://github.com/cloudygoose/blindspot_nlgで公開されている。

要約(オリジナル)

In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore is confused by truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning or middle of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation. We have released our code and data at https://github.com/cloudygoose/blindspot_nlg.

arxiv情報

著者 Tianxing He,Jingyu Zhang,Tianle Wang,Sachin Kumar,Kyunghyun Cho,James Glass,Yulia Tsvetkov
発行日 2023-05-05 05:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク