要約
大規模言語モデル (LLM) の評価は、特に自然言語理解の複雑さと高度な推論への期待を考慮すると、複雑なタスクです。
従来の評価は通常、人間ベース、モデルベース、または自動メトリクスベースのパラダイムに依存しており、それぞれに独自の利点と欠点があります。
LLMを直接評価するだけでなく、多様な評価者の知見をうまく統合するシステム「Fusion-Eval」を紹介します。
これにより、Fusion-Eval に柔軟性が与えられ、さまざまなタスクにわたって効果的に動作し、複数の参照を最適に使用できるようになります。
SummEval データセットでのテストでは、Fusion-Eval は 0.96 のスピアマン相関を達成し、他の評価者を上回りました。
Fusion-Eval の成功は、人間の視点と厳密に一致する評価を生成する LLM の可能性を強調し、LLM 評価の分野に新しい標準を設定します。
要約(オリジナル)
Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce ‘Fusion-Eval’, a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.
arxiv情報
著者 | Lei Shu,Nevan Wichers,Liangchen Luo,Yun Zhu,Yinxiao Liu,Jindong Chen,Lei Meng |
発行日 | 2023-11-15 18:46:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google