CheckEval: Robust Evaluation Framework using Large Language Model via Checklist

要約

現在の評価方法における曖昧さと一貫性の課題に対処する、大規模言語モデルを使用した新しい評価フレームワークである CheckEval を紹介します。
CheckEval は、評価基準を詳細なサブアスペクトに分割し、それぞれについてブール質問のチェックリストを作成することでこれらの課題に対処し、評価を簡素化します。
このアプローチは、プロセスをより解釈しやすくするだけでなく、特定の評価次元に焦点を当てることで結果の堅牢性と信頼性を大幅に強化します。
SummEval ベンチマークを使用した重点的なケーススタディを通じて検証された CheckEval は、人間の判断との強い相関関係を示しています。
さらに、これは、非常に一貫性のあるアノテーター間の合意を示しています。
これらの調査結果は、客観的、柔軟、正確な評価に対する CheckEval の有効性を強調しています。
CheckEval は、カスタマイズ可能でインタラクティブなフレームワークを提供することで、評価における LLM の使用に関する新しい標準を設定し、進化する現場のニーズに対応し、将来の LLM ベースの評価のための明確な方法を確立します。

要約(オリジナル)

We introduce CheckEval, a novel evaluation framework using Large Language Models, addressing the challenges of ambiguity and inconsistency in current evaluation methods. CheckEval addresses these challenges by dividing evaluation criteria into detailed sub-aspects and constructing a checklist of Boolean questions for each, simplifying the evaluation. This approach not only renders the process more interpretable but also significantly enhances the robustness and reliability of results by focusing on specific evaluation dimensions. Validated through a focused case study using the SummEval benchmark, CheckEval indicates a strong correlation with human judgments. Furthermore, it demonstrates a highly consistent Inter-Annotator Agreement. These findings highlight the effectiveness of CheckEval for objective, flexible, and precise evaluations. By offering a customizable and interactive framework, CheckEval sets a new standard for the use of LLMs in evaluation, responding to the evolving needs of the field and establishing a clear method for future LLM-based evaluation.

arxiv情報

著者 Yukyung Lee,Joonghoon Kim,Jaehee Kim,Hyowon Cho,Pilsung Kang
発行日 2024-03-27 17:20:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク