ROUGE-K: Do Your Summaries Have Keywords?

要約

キーワード、つまり要約内の内容に関連する単語は、効率的な情報伝達において重要な役割を果たしており、システムが生成した要約にそのような有益な単語が含まれているかどうかを評価時に評価することが重要になります。
ただし、極端な要約モデルの既存の評価指標は、要約内のキーワードに明確な注意を払っていないため、開発者はキーワードの存在を認識できません。
この問題に対処するために、私たちは ROUGE-K と呼ばれるキーワード指向の評価指標を提示します。これは、このキーワードを意識した指標のレンズを通して — \textit{要約にはどの程度キーワードが含まれていますか?} という質問に対する定量的な答えを提供します。
、驚くべきことに、現在の強力なベースライン モデルでは、概要に重要な情報が欠けていることがよくあります。
私たちの分析により、ヒューマン・アノテーターは実際に、より多くのキーワードを含む要約の方がソース文書との関連性が高いと考えていることが明らかになりました。
これは、要約システムを評価する際に重要ですが、これまで見落とされていた側面です。
最後に、キーワードの包含を強化するために、単語の重要性をトランスフォーマーベースのモデルに組み込むための 4 つのアプローチを提案し、それにより全体の品質を維持しながらガイド モデルにより多くのキーワードを含めることができることを実験的に示します。
私たちのコードは https://github.com/sabamchan/rougek でリリースされています。

要約(オリジナル)

Keywords, that is, content-relevant words in summaries play an important role in efficient information conveyance, making it critical to assess if system-generated summaries contain such informative words during evaluation. However, existing evaluation metrics for extreme summarization models do not pay explicit attention to keywords in summaries, leaving developers ignorant of their presence. To address this issue, we present a keyword-oriented evaluation metric, dubbed ROUGE-K, which provides a quantitative answer to the question of — \textit{How well do summaries include keywords?} Through the lens of this keyword-aware metric, we surprisingly find that a current strong baseline model often misses essential information in their summaries. Our analysis reveals that human annotators indeed find the summaries with more keywords to be more relevant to the source documents. This is an important yet previously overlooked aspect in evaluating summarization systems. Finally, to enhance keyword inclusion, we propose four approaches for incorporating word importance into a transformer-based model and experimentally show that it enables guiding models to include more keywords while keeping the overall quality. Our code is released at https://github.com/sobamchan/rougek.

arxiv情報

著者 Sotaro Takeshita,Simone Paolo Ponzetto,Kai Eckert
発行日 2024-03-08 09:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク