要約
大規模言語モデル (LLM) は、要約評価タスクで有望なパフォーマンスを示していますが、高い計算コストや、長い文書の途中にある重要な情報が見落とされがちな中間喪失問題などの課題に直面しています。
これらの問題に対処するために、この文書では、長いソース文書から重要な文を抽出し、LLM をプロンプトして要約を評価する新しいアプローチである Extract-then-Evaluate を紹介します。
その結果、提案手法は評価コストを大幅に削減するだけでなく、人間の評価との相関性も高いことが分かりました。
さらに、最適な文書長と文抽出方法に関する実践的な推奨事項を提供し、LLM ベースのテキスト生成評価のための、コスト効率が高く、より正確な方法の開発に貢献します。
要約(オリジナル)
Large Language Models (LLMs) have shown promising performance in summary evaluation tasks, yet they face challenges such as high computational costs and the Lost-in-the-Middle problem where important information in the middle of long documents is often overlooked. To address these issues, this paper introduces a novel approach, Extract-then-Evaluate, which involves extracting key sentences from a long source document and then evaluating the summary by prompting LLMs. The results reveal that the proposed method not only significantly reduces evaluation costs but also exhibits a higher correlation with human evaluations. Furthermore, we provide practical recommendations for optimal document length and sentence extraction methods, contributing to the development of cost-effective yet more accurate methods for LLM-based text generation evaluation.
arxiv情報
| 著者 | Yunshu Wu,Hayate Iso,Pouya Pezeshkpour,Nikita Bhutani,Estevam Hruschka | 
| 発行日 | 2024-01-18 18:23:37+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
