要約
大規模言語モデル (LLM) を使用してテキストの品質を評価することが、最近人気を集めています。
以前の研究の中には、評価に LLM を使用するというアイデアを探求したものもありますが、評価プロセスの詳細がいくつか異なります。
この論文では、LLM 評価 (Chiang and Lee、2023) と G-Eval (Liu et al.、2023) を分析し、評価プロセスの詳細が、LLM によって与えられる評価が人間の評価とどの程度相関するかをどのように変化させるかについて議論します。
。
G-Eval で使用される自動思考連鎖 (CoT) は、必ずしも G-Eval を人間の評価とより一致させるわけではないことがわかりました。
また、G-Eval のように、LLM に数値評価のみを出力させるのは最適ではないことも示します。
最後に、LLM に自身の評価の説明を求めることで、ChatGPT と人間の評価の間の相関関係が一貫して改善され、2 つのメタ評価データセットで最先端 (SoTA) の相関関係が強化されることを明らかにします。
要約(オリジナル)
Using large language models (LLMs) to evaluate text quality has recently gained popularity. Some prior works explore the idea of using LLMs for evaluation, while they differ in some details of the evaluation process. In this paper, we analyze LLM evaluation (Chiang and Lee, 2023) and G-Eval (Liu et al., 2023), and we discuss how those details in the evaluation process change how well the ratings given by LLMs correlate with human ratings. We find that the auto Chain-of-Thought (CoT) used in G-Eval does not always make G-Eval more aligned with human ratings. We also show that forcing the LLM to output only a numeric rating, as in G-Eval, is suboptimal. Last, we reveal that asking the LLM to explain its own ratings consistently improves the correlation between the ChatGPT and human ratings and pushes state-of-the-art (SoTA) correlations on two meta-evaluation datasets.
arxiv情報
| 著者 | Cheng-Han Chiang,Hung-yi Lee |
| 発行日 | 2023-10-09 12:12:55+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google