要約
キーフレーズ抽出とキーフレーズ生成方法の大幅な進歩にもかかわらず、評価の主なアプローチは、人間の参照との正確な一致のみに依存し、参照のない属性を無視します。
このスキームは、実用的な有用性を持つ参照またはキーフレーズと意味的に同等なキーフレーズを生成するシステムを認識できません。
さまざまなキーフレーズ システムの長所と短所をよりよく理解するために、自然さ、忠実さ、顕著性、カバレッジ、多様性、および有用性の 6 つの重要な側面からなる包括的な評価フレームワークを提案します。
各次元について、評価目的に沿った必要性と設計のセマンティックベースのメトリックについて説明します。
厳密なメタ評価研究は、以前に使用されたさまざまな指標と比較して、私たちの評価戦略が人間の好みとよりよく相関することを示しています。
このフレームワークを使用して、18 のキーフレーズ システムを再評価し、さらに次のことを発見しました。
(2) ダウンストリーム タスクでのユーティリティは、参照ベースのメトリックと常によく相関するとは限りません。
(3) 大規模な言語モデルは、無参照評価で強力なパフォーマンスを発揮します。
要約(オリジナル)
Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation only relies on exact matching with human references and disregards reference-free attributes. This scheme fails to recognize systems that generate keyphrases that are semantically equivalent to the references or keyphrases that have practical utility. To better understand the strengths and weaknesses of different keyphrase systems, we propose a comprehensive evaluation framework consisting of six critical dimensions: naturalness, faithfulness, saliency, coverage, diversity, and utility. For each dimension, we discuss the desiderata and design semantic-based metrics that align with the evaluation objectives. Rigorous meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously used metrics. Using this framework, we re-evaluate 18 keyphrase systems and further discover that (1) the best model differs in different dimensions, with pre-trained language models achieving the best in most dimensions; (2) the utility in downstream tasks does not always correlate well with reference-based metrics; and (3) large language models exhibit a strong performance in reference-free evaluation.
arxiv情報
著者 | Di Wu,Da Yin,Kai-Wei Chang |
発行日 | 2023-03-27 17:45:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google