An Improved Method for Class-specific Keyword Extraction: A Case Study in the German Business Registry

要約

$\textit{キーワード抽出}$ のタスクは多くの場合、教師なし情報抽出の重要な最初のステップであり、トピック モデリングや文書分類などのタスクの基礎を形成します。
最近の方法はキーワードの抽出に非常に効果的であることが証明されていますが、$\textit{クラス固有}$ キーワード、または事前定義されたクラスに関連するキーワードのみを識別することは依然として困難です。
この研究では、クラス固有のキーワード抽出のための改良された方法を提案します。この方法は、人気のある $\textbf{KeyBERT}$ ライブラリに基づいて構築され、$\textit{seed キーワード}$ で記述されたクラスに関連するキーワードのみを識別します。
私たちは、ドイツの企業登録エントリのデータセットを使用してこの方法をテストします。目的は、経済セクターに従って各企業を分類することです。
私たちの結果は、私たちの方法が以前のアプローチを大幅に改善し、$\textit{クラス固有}$ キーワード抽出の新しい標準を設定していることを明らかにしました。

要約(オリジナル)

The task of $\textit{keyword extraction}$ is often an important initial step in unsupervised information extraction, forming the basis for tasks such as topic modeling or document classification. While recent methods have proven to be quite effective in the extraction of keywords, the identification of $\textit{class-specific}$ keywords, or only those pertaining to a predefined class, remains challenging. In this work, we propose an improved method for class-specific keyword extraction, which builds upon the popular $\textbf{KeyBERT}$ library to identify only keywords related to a class described by $\textit{seed keywords}$. We test this method using a dataset of German business registry entries, where the goal is to classify each business according to an economic sector. Our results reveal that our method greatly improves upon previous approaches, setting a new standard for $\textit{class-specific}$ keyword extraction.

arxiv情報

著者 Stephen Meisenbacher,Tim Schopf,Weixin Yan,Patrick Holl,Florian Matthes
発行日 2024-07-19 07:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク