LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores

要約

生成されたテキスト コンテンツの自動評価は、NLP の分野で継続的な課題となっています。
多様な NLP タスクにわたる最新の言語モデル (LM) の優れた機能を考慮すると、生成タスクの自動評価のための革新的な評価指標の作成にこれらのモデルを採用する傾向が高まっています。
この論文では、極めて重要な質問について調査します。言語モデル駆動型の評価指標は、本質的に、同じ基礎となる言語モデルによって生成されたテキストを好むバイアスを示しますか?
具体的には、要約タスクのコンテキストにおいて、著名な LM ベースの評価指標 (BARTScore、T5Score、GPTScore など) がそれぞれの基礎となる LM に対して有利なバイアスを示しているかどうかを評価します。
私たちの調査結果は、潜在的なバイアスを明らかにし、特にそのような評価指標がゴールドサマリーを活用せずに参照フリーの方法で使用された場合に顕著になります。
これらの結果は、生成的評価モデルによって提供される評価が、固有のテキスト品質を超えた要因によって影響を受ける可能性があることを強調し、将来的にはより信頼できる評価プロトコルを開発する必要性を強調しています。

要約(オリジナル)

Automatic evaluation of generated textual content presents an ongoing challenge within the field of NLP. Given the impressive capabilities of modern language models (LMs) across diverse NLP tasks, there is a growing trend to employ these models in creating innovative evaluation metrics for automated assessment of generation tasks. This paper investigates a pivotal question: Do language model-driven evaluation metrics inherently exhibit bias favoring texts generated by the same underlying language model? Specifically, we assess whether prominent LM-based evaluation metrics (e.g. BARTScore, T5Score, and GPTScore) demonstrate a favorable bias toward their respective underlying LMs in the context of summarization tasks. Our findings unveil a latent bias, particularly pronounced when such evaluation metrics are used in an reference-free manner without leveraging gold summaries. These results underscore that assessments provided by generative evaluation models can be influenced by factors beyond the inherent text quality, highlighting the necessity of developing more dependable evaluation protocols in the future.

arxiv情報

著者 Yiqi Liu,Nafise Sadat Moosavi,Chenghua Lin
発行日 2024-02-20 17:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク