GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment

要約

自然言語生成 (NLG) システムによって生成されたテキストの品質を自動的に測定することは困難です。
BLEU や ROUGE などの従来の参照ベースの指標は、特に創造性と多様性を必要とするタスクでは、人間の判断との相関が比較的低いことが示されています。
最近の研究では、大規模言語モデル (LLM) を NLG 評価のリファレンス フリー メトリックとして使用することが提案されています。これは、人間によるリファレンスがない新しいタスクに適用できるという利点があります。
ただし、これらの LLM ベースのエバリュエーターは、中規模のニューラル エバリュエーターよりも人間の対応が低いままです。
この作業では、NLG 出力の品質を評価するために、思考連鎖 (CoT) とフォーム入力パラダイムを備えた大規模な言語モデルを使用するフレームワークである GPTEval を紹介します。
テキスト要約と対話生成の 2 つの生成タスクを実験します。
バックボーンモデルとしてGPT-4を使用したGPTEvalは、要約タスクで0.514のスピアマン相関を達成し、以前のすべての方法よりも大幅に優れていることを示しています。
また、LLM ベースの評価者の行動に関する予備的な分析を提案し、LLM ベースの評価者が LLM で生成されたテキストに偏りを持つ潜在的な問題を強調します。

要約(オリジナル)

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present GPTEval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that GPTEval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts.

arxiv情報

著者 Yang Liu,Dan Iter,Yichong Xu,Shuohang Wang,Ruochen Xu,Chenguang Zhu
発行日 2023-03-29 12:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク