Fusion-Eval: Integrating Evaluators with LLMs

要約

大規模言語モデル (LLM) の評価は、特に自然言語理解の複雑さと高度な推論への期待を考慮すると、複雑なタスクです。
従来の評価は通常、人間ベース、モデルベース、または自動メトリクスベースのパラダイムに依存しており、それぞれに独自の利点と欠点があります。
LLMを直接評価するだけでなく、多様な評価者の知見をうまく統合するシステム「Fusion-Eval」を紹介します。
これにより、Fusion-Eval に柔軟性が与えられ、さまざまなタスクにわたって効果的に動作し、複数の参照を最適に使用できるようになります。
SummEval データセットでのテストでは、Fusion-Eval は 0.96 のスピアマン相関を達成し、他の評価者を上回りました。
Fusion-Eval の成功は、人間の視点と厳密に一致する評価を生成する LLM の可能性を強調し、LLM 評価の分野に新しい標準を設定します。

要約(オリジナル)

Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce ‘Fusion-Eval’, a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.

arxiv情報

著者 Lei Shu,Nevan Wichers,Liangchen Luo,Yun Zhu,Yinxiao Liu,Jindong Chen,Lei Meng
発行日 2023-11-15 18:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク