Perplexity from PLM Is Unreliable for Evaluating Text Quality

要約

最近では、生成されたテキストの品質を評価するために perplexity~(PPL) を使用する作品が多くなっています。
彼らは、PPL の値が小さいほど、評価されるテキストの品質 (流暢さ) が優れていると考えています。
しかし、以下の理由から、PPL レフリーは不適格であり、生成されたテキストを公正に評価できないことがわかりました。(i) 短いテキストの PPL は長いテキストよりも大きく、常識に反します。
(iii) 句読点は PPL のパフォーマンスに大きな影響を与える可能性があります。
実験は、与えられたテキストの品質を評価するために PPL が信頼できないことを示しています。
最後に、言語モデルを使用してテキストの品質を評価する際の主な問題について説明します。

要約(オリジナル)

Recently, amounts of works utilize perplexity~(PPL) to evaluate the quality of the generated text. They suppose that if the value of PPL is smaller, the quality(i.e. fluency) of the text to be evaluated is better. However, we find that the PPL referee is unqualified and it cannot evaluate the generated text fairly for the following reasons: (i) The PPL of short text is larger than long text, which goes against common sense, (ii) The repeated text span could damage the performance of PPL, and (iii) The punctuation marks could affect the performance of PPL heavily. Experiments show that the PPL is unreliable for evaluating the quality of given text. Last, we discuss the key problems with evaluating text quality using language models.

arxiv情報

著者 Yequan Wang,Jiawen Deng,Aixin Sun,Xuying Meng
発行日 2023-03-15 06:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク