要約
大規模言語モデル (LLM) によって生成されたテキストの品質を評価することは、依然として大きな課題です。
従来の指標は、特に創造性や微妙なニュアンスが必要なタスクでは、人間の判断とうまく一致しないことがよくあります。
この論文では、LLM を利用して、チェックリスト ベースのアプローチを通じて生成されたテキストの品質を評価する新しい評価フレームワークである \textsc{Check-Eval} を提案します。
\textsc{Check-Eval} は、参照に依存しない評価方法と参照に依存する評価方法の両方として使用でき、構造化された解釈可能なテキスト品質の評価を提供します。
このフレームワークは、チェックリストの生成とチェックリストの評価という 2 つの主要な段階で構成されます。
ポルトガル語の法的意味テキスト類似性と \textsc{SummEval} という 2 つのベンチマーク データセットで \textsc{Check-Eval} を検証します。
私たちの結果は、\textsc{Check-Eval} が \textsc{G-Eval} や \textsc{GPTScore} などの既存の指標と比較して人間の判断との高い相関関係を達成していることを示しており、より信頼性が高く効果的な評価フレームワークとしての可能性を強調しています。
自然言語生成タスク。
実験のコードは \url{https://anonymous.4open.science/r/check-eval-0DB4} で入手できます。
要約(オリジナル)
Evaluating the quality of text generated by large language models (LLMs) remains a significant challenge. Traditional metrics often fail to align well with human judgments, particularly in tasks requiring creativity and nuance. In this paper, we propose \textsc{Check-Eval}, a novel evaluation framework leveraging LLMs to assess the quality of generated text through a checklist-based approach. \textsc{Check-Eval} can be employed as both a reference-free and reference-dependent evaluation method, providing a structured and interpretable assessment of text quality. The framework consists of two main stages: checklist generation and checklist evaluation. We validate \textsc{Check-Eval} on two benchmark datasets: Portuguese Legal Semantic Textual Similarity and \textsc{SummEval}. Our results demonstrate that \textsc{Check-Eval} achieves higher correlations with human judgments compared to existing metrics, such as \textsc{G-Eval} and \textsc{GPTScore}, underscoring its potential as a more reliable and effective evaluation framework for natural language generation tasks. The code for our experiments is available at \url{https://anonymous.4open.science/r/check-eval-0DB4}
arxiv情報
著者 | Jayr Pereira,Andre Assumpcao,Roberto Lotufo |
発行日 | 2024-09-10 14:08:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google