要約
キーフレーズ抽出およびキーフレーズ生成方法は大幅に進歩しているにもかかわらず、評価の主なアプローチは人間の参照との正確な一致のみに依存し、参照のない属性は無視されています。
このスキームは、参照と意味的に同等のキーフレーズ、または実用性を伴う多様なキーフレーズを生成するシステムを認識できません。
キーフレーズ システムの機能をより適切に評価するために、顕著性、忠実性、多様性、実用性という 4 つの重要な側面で構成される包括的な評価フレームワークである KPEval を提案します。
各次元について、評価目標に沿ったセマンティックベースの指標を設計します。
メタ評価研究は、私たちの評価戦略が、以前に使用されていたさまざまな指標と比較して、人間の好みとよりよく相関していることを示しています。
このフレームワークを使用して、20 のキーフレーズ システムを再評価し、さらに次のことを発見しました。(1) 最適なモデルは評価次元に応じて異なる。
(2) 下流タスクのユーティリティは、参照ベースのメトリクスと常に相関するとは限りません。
(3) GPT-3.5 のような大規模な言語モデルは、参照なしの評価で優れたパフォーマンスを示します。
要約(オリジナル)
Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation only relies on exact matching with human references and disregards reference-free attributes. This scheme fails to recognize systems that generate keyphrases semantically equivalent to the references or diverse keyphrases that carry practical utility. To better assess the capability of keyphrase systems, we propose KPEval, a comprehensive evaluation framework consisting of four critical dimensions: saliency, faithfulness, diversity, and utility. For each dimension, we design semantic-based metrics that align with the evaluation objectives. Meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously used metrics. Using this framework, we re-evaluate 20 keyphrase systems and further discover that (1) the best model differs depending on the evaluation dimension; (2) the utility in downstream tasks does not always correlate with reference-based metrics; and (3) large language models like GPT-3.5 exhibit a strong performance under reference-free evaluation.
arxiv情報
著者 | Di Wu,Da Yin,Kai-Wei Chang |
発行日 | 2023-11-01 05:00:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google