LLM-based NLG Evaluation: Current Status and Challenges

要約

自然言語生成(NLG)の評価は、人工知能において重要であるが、困難な問題である。近年、ChatGPTに代表される大規模言語モデル(LLM)がNLG評価において大きな可能性を示している。LLMに基づく自動評価手法としては、LLMに由来するメトリクス、LLMのプロンプト、ラベル付き評価データによるLLMの微調整など、様々な手法が提案されている。本サーベイでは、まずLLMに基づくNLG評価手法の分類を行い、それぞれの長所と短所を議論する。また、NLG評価のための人間とLLMのコラボレーションについても議論する。最後に、この分野におけるいくつかの未解決の問題について議論し、今後の研究の方向性を指摘する。

要約(オリジナル)

Evaluating natural language generation (NLG) is a vital but challenging problem in artificial intelligence. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, and fine-tuning LLMs with labeled evaluation data. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. We also discuss human-LLM collaboration for NLG evaluation. Lastly, we discuss several open problems in this area and point out future research directions.

arxiv情報

著者 Mingqi Gao,Xinyu Hu,Jie Ruan,Xiao Pu,Xiaojun Wan
発行日 2024-02-02 13:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク