要約
大規模言語モデル (LLM) は、ROUGE や BERTScore などの従来の指標に基づく要約タスクで人間に近いパフォーマンスを実証しました。
ただし、これらの指標は、特に長い物語 (100,000 トークンを超える) の場合、事実の正確さなど、要約の品質の重要な側面を適切に捉えていません。
LLM-as-a-Judge などの最近の進歩は、語彙の類似性に基づく指標の制限に対処していますが、特に文字の関係や状態の理解においては依然として事実の不一致を示しています。
この作業では、概要を評価および調整するための新しい「Agent-as-a-Judge」フレームワークである NarrativeFactScore を紹介します。
NarrativeFactScore は、入力および生成された要約から抽出された文字ナレッジ グラフ (CKG) を活用することで、事実の一貫性を評価し、欠落または誤った事実の特定など、改善のための実用的なガイダンスを提供します。
詳細なワークフロー図と広く採用されているベンチマークでの広範な検証を通じて NarrativeFactScore の有効性を実証し、競合手法と比較して優れたパフォーマンスを実現します。
私たちの結果は、エージェント主導の評価システムが LLM によって生成された要約の事実の信頼性を向上させる可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated near-human performance in summarization tasks based on traditional metrics such as ROUGE and BERTScore. However, these metrics do not adequately capture critical aspects of summarization quality, such as factual accuracy, particularly for long narratives (>100K tokens). Recent advances, such as LLM-as-a-Judge, address the limitations of metrics based on lexical similarity but still exhibit factual inconsistencies, especially in understanding character relationships and states. In this work, we introduce NarrativeFactScore, a novel ‘Agent-as-a-Judge’ framework for evaluating and refining summaries. By leveraging a Character Knowledge Graph (CKG) extracted from input and generated summaries, NarrativeFactScore assesses the factual consistency and provides actionable guidance for refinement, such as identifying missing or erroneous facts. We demonstrate the effectiveness of NarrativeFactScore through a detailed workflow illustration and extensive validation on widely adopted benchmarks, achieving superior performance compared to competitive methods. Our results highlight the potential of agent-driven evaluation systems to improve the factual reliability of LLM-generated summaries.
arxiv情報
著者 | Yeonseok Jeong,Minsoo Kim,Seung-won Hwang,Byung-Hak Kim |
発行日 | 2025-01-17 07:23:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google