Check-Eval: A Checklist-based Approach for Evaluating Text Quality

要約

大規模言語モデル (LLM) によって生成されたテキストの品質を評価することは、依然として大きな課題です。
従来の指標は、特に創造性や微妙なニュアンスが必要なタスクでは、人間の判断とうまく一致しないことがよくあります。
このペーパーでは、LLM を活用して、チェックリスト ベースのアプローチを通じて生成されたテキストの品質を評価する新しい評価フレームワークである Check-Eval を提案します。
Check-Eval は、参考文献に依存しない評価方法としても参考文献に依存する評価方法としても使用でき、構造化された解釈可能なテキスト品質の評価を提供します。
このフレームワークは、チェックリストの生成とチェックリストの評価という 2 つの主要な段階で構成されます。
ポルトガル語の法的意味論的テキスト類似性と SummEval という 2 つのベンチマーク データセットで Check-Eval を検証します。
私たちの結果は、Check-Eval が G-Eval や GPTScore などの既存の指標と比較して人間の判断との高い相関関係を達成していることを示しており、自然言語生成タスクのためのより信頼性が高く効果的な評価フレームワークとしての可能性を強調しています。
実験のコードは https://anonymous.4open.science/r/check-eval-0DB4 で入手できます。

要約(オリジナル)

Evaluating the quality of text generated by large language models (LLMs) remains a significant challenge. Traditional metrics often fail to align well with human judgments, particularly in tasks requiring creativity and nuance. In this paper, we propose Check-Eval, a novel evaluation framework leveraging LLMs to assess the quality of generated text through a checklist-based approach. Check-Eval can be employed as both a reference-free and reference-dependent evaluation method, providing a structured and interpretable assessment of text quality. The framework consists of two main stages: checklist generation and checklist evaluation. We validate Check-Eval on two benchmark datasets: Portuguese Legal Semantic Textual Similarity and SummEval. Our results demonstrate that Check-Eval achieves higher correlations with human judgments compared to existing metrics, such as G-Eval and GPTScore, underscoring its potential as a more reliable and effective evaluation framework for natural language generation tasks. The code for our experiments is available at https://anonymous.4open.science/r/check-eval-0DB4.

arxiv情報

著者 Jayr Pereira,Roberto Lotufo
発行日 2024-07-19 17:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク