Evaluating Text Summaries Generated by Large Language Models Using OpenAI’s GPT

要約

この研究では、Hugging Face の 6 つのトランスフォーマーベースのモデル (DistilBART、BERT、ProphetNet、T5、BART、PEGASUS) によって生成されたテキスト要約の独立した評価者としての OpenAI の GPT モデルの有効性を検証します。
私たちは、ROUGE や潜在意味分析 (LSA) などの従来の指標を使用して、高品質の要約の重要な特性 (簡潔さ、関連性、一貫性、読みやすさ) に基づいてこれらの要約を評価しました。
ユニークなことに、GPT を要約者としてではなく評価者として採用し、事前定義された指標なしで要約の品質を独立して評価できるようにしました。
私たちの分析により、特に関連性と一貫性の評価において、GPT 評価と従来の指標との間に有意な相関関係があることが明らかになりました。
この結果は、テキストの要約を評価するための強力なツールとして GPT の可能性を示し、確立された指標を補完する洞察を提供し、自然言語処理タスクにおけるトランスフォーマーベースのモデルの比較分析の基礎を提供します。

要約(オリジナル)

This research examines the effectiveness of OpenAI’s GPT models as independent evaluators of text summaries generated by six transformer-based models from Hugging Face: DistilBART, BERT, ProphetNet, T5, BART, and PEGASUS. We evaluated these summaries based on essential properties of high-quality summary – conciseness, relevance, coherence, and readability – using traditional metrics such as ROUGE and Latent Semantic Analysis (LSA). Uniquely, we also employed GPT not as a summarizer but as an evaluator, allowing it to independently assess summary quality without predefined metrics. Our analysis revealed significant correlations between GPT evaluations and traditional metrics, particularly in assessing relevance and coherence. The results demonstrate GPT’s potential as a robust tool for evaluating text summaries, offering insights that complement established metrics and providing a basis for comparative analysis of transformer-based models in natural language processing tasks.

arxiv情報

著者 Hassan Shakil,Atqiya Munawara Mahi,Phuoc Nguyen,Zeydy Ortiz,Mamoun T. Mardini
発行日 2024-05-07 06:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク