要約
通常、次の指示の自動評価には、大規模言語モデル (LLM) を使用して応答の品質を評価することが含まれます。
ただし、これらの LLM ベースの評価器は、基本 LLM と評価プロトコルの 2 つの側面にわたる包括的な評価が不足しています。
したがって、我々は、人間が注釈を付けた 4 つのデータセットに対して、25 の基本 LLM と最近提案された 15 の評価プロトコルを含む、以下の指示の徹底的なメタ評価を提示し、LLM 評価者の評価精度を評価します。
私たちの評価により、高度な堅牢性を備えた最高のパフォーマンスのベース LLM と評価プロトコルを特定することができます。
さらに、私たちの大規模な評価では次のことが明らかになりました。(1) 基本 LLM パフォーマンス ランキングは評価プロトコル間でほぼ一貫しており、能力の低い LLM はプロトコルの拡張による大幅な改善を示しています。
(2) プロトコルの有効性は使用されるベース LLM に依存する可能性があるため、評価プロトコルの堅牢な評価には、さまざまな機能レベルを持つ多くのベース LLM が必要です。
(3) 異なるデータセットの評価結果は必ずしも一致するとは限らないため、厳密な評価には特徴のある複数のデータセットが必要です。
私たちはメタ評価スイート ReIFE をリリースします。これは、500 を超える LLM エバリュエーター構成のコードベースと評価結果のコレクションを提供し、指示に従う評価における将来の研究をサポートします。
要約(オリジナル)
The automatic evaluation of instruction following typically involves using large language models (LLMs) to assess response quality. However, there is a lack of comprehensive evaluation of these LLM-based evaluators across two dimensions: the base LLMs and the evaluation protocols. Therefore, we present a thorough meta-evaluation of instruction following, including 25 base LLMs and 15 recently proposed evaluation protocols, on 4 human-annotated datasets, assessing the evaluation accuracy of the LLM-evaluators. Our evaluation allows us to identify the best-performing base LLMs and evaluation protocols with a high degree of robustness. Moreover, our large-scale evaluation reveals: (1) Base LLM performance ranking remains largely consistent across evaluation protocols, with less capable LLMs showing greater improvement from protocol enhancements; (2) Robust evaluation of evaluation protocols requires many base LLMs with varying capability levels, as protocol effectiveness can depend on the base LLM used; (3) Evaluation results on different datasets are not always consistent, so a rigorous evaluation requires multiple datasets with distinctive features. We release our meta-evaluation suite ReIFE, which provides the codebase and evaluation result collection for more than 500 LLM-evaluator configurations, to support future research in instruction-following evaluation.
arxiv情報
著者 | Yixin Liu,Kejian Shi,Alexander R. Fabbri,Yilun Zhao,Peifeng Wang,Chien-Sheng Wu,Shafiq Joty,Arman Cohan |
発行日 | 2024-10-09 17:14:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google