要約
タイトル:「G-Eval: GPT-4を使用したより良い人間の合意性を持つNLG評価」
要約:
– 自然言語生成(NLG)システムによって生成されたテキストの品質を自動的に測定することは難しい。
– 従来のBLEUやROUGEなどの基準による評価は、創造性と多様性が必要なタスクに対しては、人間の判断との相関性が比較的低いことが示されている。
– 最近の研究では、新しいタスクに対しても適用可能な無参照評価器として、大規模言語モデル(LLM)を使用することが提案されている。しかし、これらのLLMに基づく評価器は、中程度のニューラル評価器に比べて人間との対応性が低い。
– 本研究では、チェーン・オブ・ソウツ(CoT)とフォーム埋め込みパラダイムを用いた大規模言語モデルのためのフレームワークであるG-Evalを提案する。
– テキスト要約と対話生成の2つの生成タスクで実験し、GPT-4をバックボーンモデルとして使用することで、要約タスクでのスピアマン相関係数が0.514となり、これまでのすべての方法を大幅に上回ることを示した。
– LLMに基づく評価器の行動についての予備的な分析を提案し、LLMによって生成されたテキストに偏りがある可能性を示している。
要約(オリジナル)
The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present G-Eval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that G-Eval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts.
arxiv情報
著者 | Yang Liu,Dan Iter,Yichong Xu,Shuohang Wang,Ruochen Xu,Chenguang Zhu |
発行日 | 2023-04-06 23:49:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI