LLM-based NLG Evaluation: Current Status and Challenges

要約

自然言語生成(NLG)の評価は、自然言語処理において重要だが挑戦的な問題です。
主にコンテンツをキャプチャする従来の評価メトリック(n-gramなど)システム出力と参照の間のオーバーラップは満足のいくものとはほど遠いものであり、CHATGPTのような大規模な言語モデル(LLM)は、近年NLG評価に大きな可能性を示しています。
LLMSに由来するメトリック、LLMS、微調整LLM、およびHuman-LLM共同評価を含む、LLMSに基づくさまざまな自動評価方法が提案されています。
この調査では、まずLLMベースのNLG評価方法の分類法を示し、それぞれ長所と短所について議論します。
最後に、この分野でいくつかの未解決の問題について説明し、将来の研究の方向性を指摘します。

要約(オリジナル)

Evaluating natural language generation (NLG) is a vital but challenging problem in natural language processing. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, fine-tuning LLMs, and human-LLM collaborative evaluation. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. Lastly, we discuss several open problems in this area and point out future research directions.

arxiv情報

著者 Mingqi Gao,Xinyu Hu,Jie Ruan,Xiao Pu,Xiaojun Wan
発行日 2025-05-14 06:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク