要約
ROUGE のような従来の評価指標は、法的要約にとって重要である議論の構造を考慮せずに、参照要約と生成された要約の間の語彙の重複を比較します。
この論文では、GPT-4 を利用して、参考資料の要点と情報をカバーする一連の質問と回答のペアを生成する、新しい法律要約評価フレームワークを提案します。
次に、GPT-4 を使用して、参照概要から生成された質問の概要に基づいて回答を生成します。
最後に、GPT-4 は、参照概要と生成された概要から回答を採点します。
私たちは、GPT-4 による等級付けと人間による等級付けとの相関関係を調べました。
この結果は、GPT-4 を使用したこの質問応答アプローチが、要約の品質を評価するための有用なツールとなり得ることを示唆しています。
要約(オリジナル)
Traditional evaluation metrics like ROUGE compare lexical overlap between the reference and generated summaries without taking argumentative structure into account, which is important for legal summaries. In this paper, we propose a novel legal summarization evaluation framework that utilizes GPT-4 to generate a set of question-answer pairs that cover main points and information in the reference summary. GPT-4 is then used to generate answers based on the generated summary for the questions from the reference summary. Finally, GPT-4 grades the answers from the reference summary and the generated summary. We examined the correlation between GPT-4 grading with human grading. The results suggest that this question-answering approach with GPT-4 can be a useful tool for gauging the quality of the summary.
arxiv情報
著者 | Huihui Xu,Kevin Ashley |
発行日 | 2023-09-26 15:36:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google