Is ChatGPT a Good NLG Evaluator? A Preliminary Study


最近、ChatGPT の出現は、計算言語学コミュニティから大きな注目を集めています。
多くの先行研究は、ChatGPT がさまざまな NLP タスクで自動評価メトリックに関して驚くべきパフォーマンスを達成することを示しています。
ただし、ChatGPT が評価指標として機能する能力は、まだ十分に調査されていません。
このレポートでは、NLG メトリックとしての信頼性を示すために、ChatGPT の予備的なメタ評価を提供します。
詳細には、ChatGPT を人間の評価者と見なし、タスク固有 (要約など) および側面固有 (関連性など) の指示を与えて、ChatGPT に NLG モデルの生成をスコアリングするよう促します。
広く使用されている 3 つの NLG メタ評価データセット (要約、ストーリー生成、データからテキストへのタスクを含む) で実験を行います。
実験結果は、以前の自動メトリクスと比較して、ChatGPT が最高水準の人間の判断と最先端または競争力のある相関関係を達成することを示しています。
私たちの予備調査が、汎用の信頼できる NLG メトリックの出現を促すことを願っています。


Recently, the emergence of ChatGPT has attracted wide attention from the computational linguistics community. Many prior studies have shown that ChatGPT achieves remarkable performance on various NLP tasks in terms of automatic evaluation metrics. However, the ability of ChatGPT to serve as an evaluation metric is still underexplored. Considering assessing the quality of NLG models is an arduous task and previous statistical metrics notoriously show their poor correlation with human judgments, we wonder whether ChatGPT is a good NLG evaluation metric. In this report, we provide a preliminary meta-evaluation on ChatGPT to show its reliability as an NLG metric. In detail, we regard ChatGPT as a human evaluator and give task-specific (e.g., summarization) and aspect-specific (e.g., relevance) instruction to prompt ChatGPT to score the generation of NLG models. We conduct experiments on three widely-used NLG meta-evaluation datasets (including summarization, story generation and data-to-text tasks). Experimental results show that compared with previous automatic metrics, ChatGPT achieves state-of-the-art or competitive correlation with golden human judgments. We hope our preliminary study could prompt the emergence of a general-purposed reliable NLG metric.


著者 Jiaan Wang,Yunlong Liang,Fandong Meng,Haoxiang Shi,Zhixu Li,Jinan Xu,Jianfeng Qu,Jie Zhou
発行日 2023-03-07 16:57:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク