要約
キーフレーズ抽出は自然言語処理の基本的なタスクであり、通常、候補キーフレーズ抽出とキーフレーズ重要度推定という 2 つの主要部分が含まれます。
人間が理解できる文書の観点から、私たちは通常、構文の正確さ、情報の顕著性、概念の一貫性に従ってフレーズの重要性を同時に測定します。
ただし、既存のキーフレーズ抽出アプローチのほとんどは、キーフレーズの一部のみに焦点を当てているため、偏った結果が得られます。
この論文では、複数の観点からキーフレーズの重要性を推定し (\textit{KIEMP} と呼ばれる)、キーフレーズ抽出のパフォーマンスをさらに向上させる新しいアプローチを提案します。
具体的には、\textit{KIEMP} は 3 つのモジュールでフレーズの重要度を推定します。構文の正確さを測定するチャンキング モジュール、情報の顕著性をチェックするランキング モジュール、フレーズ間の概念 (トピック) の一貫性を判断するマッチング モジュールです。
そして文書全体。
これら 3 つのモジュールは、エンドツーエンドのマルチタスク学習モデルを介してシームレスに結合されており、3 つの部分が相互に強化し、3 つの視点の効果のバランスをとるのに役立ちます。
6 つのベンチマーク データセットでの実験結果は、ほとんどの場合、\textit{KIEMP} が既存の最先端のキーフレーズ抽出アプローチよりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Keyphrase extraction is a fundamental task in Natural Language Processing, which usually contains two main parts: candidate keyphrase extraction and keyphrase importance estimation. From the view of human understanding documents, we typically measure the importance of phrase according to its syntactic accuracy, information saliency, and concept consistency simultaneously. However, most existing keyphrase extraction approaches only focus on the part of them, which leads to biased results. In this paper, we propose a new approach to estimate the importance of keyphrase from multiple perspectives (called as \textit{KIEMP}) and further improve the performance of keyphrase extraction. Specifically, \textit{KIEMP} estimates the importance of phrase with three modules: a chunking module to measure its syntactic accuracy, a ranking module to check its information saliency, and a matching module to judge the concept (i.e., topic) consistency between phrase and the whole document. These three modules are seamlessly jointed together via an end-to-end multi-task learning model, which is helpful for three parts to enhance each other and balance the effects of three perspectives. Experimental results on six benchmark datasets show that \textit{KIEMP} outperforms the existing state-of-the-art keyphrase extraction approaches in most cases.
arxiv情報
著者 | Mingyang Song,Liping Jing,Lin Xiao |
発行日 | 2023-12-21 10:56:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google