Is ChatGPT a Good NLG Evaluator? A Preliminary Study

要約

最近、ChatGPT の出現が計算言語学コミュニティから幅広い注目を集めています。
多くの先行研究は、ChatGPT が自動評価メトリクスの観点からさまざまな NLP タスクで顕著なパフォーマンスを達成することを示しています。
ただし、評価指標として機能する ChatGPT の機能はまだ十分に研究されていません。
自然言語生成 (NLG) モデルの品質を評価するのは困難な作業であり、NLG 指標が人間の判断との相関性が低いことで悪名高いことを考慮すると、ChatGPT が優れた NLG 評価指標であるかどうかは疑問です。
このレポートでは、ChatGPT の NLG 指標としての信頼性を示すための予備的なメタ評価を提供します。
詳細には、ChatGPT を人間の評価者とみなし、タスク固有 (要約など) および側面固有 (関連性など) の指示を与えて、ChatGPT に NLG モデルの生成結果を評価するように促します。
私たちは 5 つの NLG メタ評価データセット (要約、ストーリー生成、データからテキストへのタスクを含む) で実験を実施します。
実験結果は、以前の自動メトリクスと比較して、ChatGPT はほとんどの場合、人間の判断との最先端の、または競合する相関関係を達成することを示しています。
さらに、ChatGPT 評価ツールの有効性は、メタ評価データセットの作成方法によって影響を受ける可能性があることがわかりました。
参照に大きく依存して作成された偏りのあるメタ評価データセットの場合、ChatGPT 評価ツールは有効性を失う可能性があります。
私たちの予備研究が、汎用で信頼できる NLG 指標の出現を促すことができれば幸いです。

要約(オリジナル)

Recently, the emergence of ChatGPT has attracted wide attention from the computational linguistics community. Many prior studies have shown that ChatGPT achieves remarkable performance on various NLP tasks in terms of automatic evaluation metrics. However, the ability of ChatGPT to serve as an evaluation metric is still underexplored. Considering assessing the quality of natural language generation (NLG) models is an arduous task and NLG metrics notoriously show their poor correlation with human judgments, we wonder whether ChatGPT is a good NLG evaluation metric. In this report, we provide a preliminary meta-evaluation on ChatGPT to show its reliability as an NLG metric. In detail, we regard ChatGPT as a human evaluator and give task-specific (e.g., summarization) and aspect-specific (e.g., relevance) instruction to prompt ChatGPT to evaluate the generated results of NLG models. We conduct experiments on five NLG meta-evaluation datasets (including summarization, story generation and data-to-text tasks). Experimental results show that compared with previous automatic metrics, ChatGPT achieves state-of-the-art or competitive correlation with human judgments in most cases. In addition, we find that the effectiveness of the ChatGPT evaluator might be influenced by the creation method of the meta-evaluation datasets. For the meta-evaluation datasets which are created greatly depending on the reference and thus are biased, the ChatGPT evaluator might lose its effectiveness. We hope our preliminary study could prompt the emergence of a general-purposed reliable NLG metric.

arxiv情報

著者 Jiaan Wang,Yunlong Liang,Fandong Meng,Zengkui Sun,Haoxiang Shi,Zhixu Li,Jinan Xu,Jianfeng Qu,Jie Zhou
発行日 2023-10-24 14:56:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク