Human-like Summarization Evaluation with ChatGPT

要約

タイトル: ChatGPTを用いた人間らしい要約評価
要約:
– テキストの要約評価は難しい問題で、現存する評価尺度は十分に満足のいくものではない。
– この研究では、ChatGPTを用いた四つの人間評価手法を、五つのデータセットで使用することによって、ChatGPTの人間らしい要約評価能力を探求した。
– リカート尺度の評価、ペアワイズ比較、ピラミッド、およびバイナリ事実性評価を用いたChatGPTによる注釈作業が、比較的スムーズに完了したことを確認した。
– ChatGPTは、一部のデータセットにおいて、一般的に使用される自動評価尺度を上回る成績を収めた。
– さらに、異なるプロンプトの影響を説明し、人間の評価とのパフォーマンスを比較し、生成された説明と無効な応答を分析した。

要約(オリジナル)

Evaluating text summarization is a challenging problem, and existing evaluation metrics are far from satisfactory. In this study, we explored ChatGPT’s ability to perform human-like summarization evaluation using four human evaluation methods on five datasets. We found that ChatGPT was able to complete annotations relatively smoothly using Likert scale scoring, pairwise comparison, Pyramid, and binary factuality evaluation. Additionally, it outperformed commonly used automatic evaluation metrics on some datasets. Furthermore, we discussed the impact of different prompts, compared its performance with that of human evaluation, and analyzed the generated explanations and invalid responses.

arxiv情報

著者 Mingqi Gao,Jie Ruan,Renliang Sun,Xunjian Yin,Shiping Yang,Xiaojun Wan
発行日 2023-04-05 16:17:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク