Towards Understanding the Robustness of LLM-based Evaluations under Perturbations

要約

BLEU や ROUGE などの従来の評価指標は、生成されたテキストの微妙な性質を捉える場合、特に単一のグラウンド トゥルースがない場合には不十分です。
この論文では、要約や対話ベースのタスクにおける非標準化メトリクスの自動評価器として機能する大規模言語モデル (LLM)、特に Google Gemini 1 の可能性を探ります。
私たちは複数のプロンプト戦略にわたって実験を実施し、SummEval および USR データセットに対する人間の判断と比較した場合に、LLM が品質評価者としてどのように機能するかを検証し、モデルにスコアとスコアの正当化の両方を生成するように依頼します。
さらに、摂動入力を使用して LLM 評価器の堅牢性を調査します。
私たちの調査結果は、LLM は有望であるものの、人間の評価者との連携には限界があり、摂動に対して堅牢ではなく、主観的なメトリクスの信頼できる評価者としてスタンドアロンで使用するには大幅な改善が必要であることを示唆しています。

要約(オリジナル)

Traditional evaluation metrics like BLEU and ROUGE fall short when capturing the nuanced qualities of generated text, particularly when there is no single ground truth. In this paper, we explore the potential of Large Language Models (LLMs), specifically Google Gemini 1, to serve as automatic evaluators for non-standardized metrics in summarization and dialog-based tasks. We conduct experiments across multiple prompting strategies to examine how LLMs fare as quality evaluators when compared with human judgments on the SummEval and USR datasets, asking the model to generate both a score as well as a justification for the score. Furthermore, we explore the robustness of the LLM evaluator by using perturbed inputs. Our findings suggest that while LLMs show promise, their alignment with human evaluators is limited, they are not robust against perturbations and significant improvements are required for their standalone use as reliable evaluators for subjective metrics.

arxiv情報

著者 Manav Chaudhary,Harshit Gupta,Savita Bhat,Vasudeva Varma
発行日 2024-12-12 13:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク