Improving Performance of Automatic Keyword Extraction (AKE) Methods Using PoS-Tagging and Enhanced Semantic-Awareness

要約

自動キーワード抽出(AKE)は、最新のコンピューティングシステムがプロセスするデジタルテキストデータの量が増えて、より重要になりました。
テキストの要約、トピック分析、ドキュメントインデックスを含む、情報検索(IR)および自然言語処理(NLP)にさまざまなアプリケーションがあります。
このペーパーでは、POSタグをサポートするセマンティックアウェアネスの強化されたレベルを介して、あらゆるAKEメソッドのパフォーマンスを改善するためのシンプルだが効果的なポストプロセッシングベースの普遍的なアプローチを提案します。
提案されたアプローチのパフォーマンスを実証するために、POSタグ付けステップと2つの代表的なセマンティック情報のソース(1つ以上のコンテキスト依存のシソリで定義された専門用語、ウィキペディアのエンティティという名前)から取得された単語タイプを検討しました。
上記の3つのステップは、ポストプロセッサの一部としてAKEメソッドの最後に単純に追加できます。これにより、コンテキスト固有およびセマンティックアウェアの基準に従って、すべての候補キーワードを再評価できます。
5つの最先端の(SOTA)AKEメソッドの場合、17の選択されたデータセットを使用した実験結果は、提案されたアプローチがパフォーマンスを一貫して改善することを示しました。
53.8%、F1スコアの観点から平均25.8%、5つの方法すべてで、特に3つの拡張手順がすべて使用されている場合。
私たちの結果は、提案されたアプローチをAKEメソッドに容易に適用し、さらに拡張することを考慮して、深い意味を持っています。

要約(オリジナル)

Automatic keyword extraction (AKE) has gained more importance with the increasing amount of digital textual data that modern computing systems process. It has various applications in information retrieval (IR) and natural language processing (NLP), including text summarisation, topic analysis and document indexing. This paper proposes a simple but effective post-processing-based universal approach to improve the performance of any AKE methods, via an enhanced level of semantic-awareness supported by PoS-tagging. To demonstrate the performance of the proposed approach, we considered word types retrieved from a PoS-tagging step and two representative sources of semantic information – specialised terms defined in one or more context-dependent thesauri, and named entities in Wikipedia. The above three steps can be simply added to the end of any AKE methods as part of a post-processor, which simply re-evaluate all candidate keywords following some context-specific and semantic-aware criteria. For five state-of-the-art (SOTA) AKE methods, our experimental results with 17 selected datasets showed that the proposed approach improved their performances both consistently (up to 100% in terms of improved cases) and significantly (between 10.2% and 53.8%, with an average of 25.8%, in terms of F1-score and across all five methods), especially when all the three enhancement steps are used. Our results have profound implications considering the ease to apply our proposed approach to any AKE methods and to further extend it.

arxiv情報

著者 Enes Altuncu,Jason R. C. Nurse,Yang Xu,Jie Guo,Shujun Li
発行日 2025-01-23 14:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク