Unsupervised extraction of local and global keywords from a single text

要約

我々は、単一のテキストからキーワードを抽出するための、教師なしでコーパスに依存しない方法を提案します。
これは、単語の空間分布と、単語のランダムな並べ替えに対するこの分布の応答に基づいています。
既存の方法 (YAKE など) と比較して、私たちの方法には 3 つの利点があります。
まず、長いテキストからキーワードを抽出する際の効率が大幅に向上します。
次に、ローカルとグローバルという 2 種類のキーワードの推論が可能になります。
第三に、テキストの基本的なテーマを明らかにします。
さらに、私たちの方法は言語に依存せず、短いテキストに適用されます。
結果は、古典文学作品のデータベースのテキストに関する事前知識を持つ人間のアノテーターを介して取得されます (アノテーター間の一致は中程度から実質的です)。
私たちの結果は、抽出された内容単語の平均長と抽出された単語に含まれる名詞の平均数に基づいた、人間に依存しない議論によって裏付けられています。
キーワードと高次のテキスト特徴との関係を議論し、キーワードと章分割との関係を明らかにします。

要約(オリジナル)

We propose an unsupervised, corpus-independent method to extract keywords from a single text. It is based on the spatial distribution of words and the response of this distribution to a random permutation of words. As compared to existing methods (such as e.g. YAKE) our method has three advantages. First, it is significantly more effective at extracting keywords from long texts. Second, it allows inference of two types of keywords: local and global. Third, it uncovers basic themes in texts. Additionally, our method is language-independent and applies to short texts. The results are obtained via human annotators with previous knowledge of texts from our database of classical literary works (the agreement between annotators is from moderate to substantial). Our results are supported via human-independent arguments based on the average length of extracted content words and on the average number of nouns in extracted words. We discuss relations of keywords with higher-order textual features and reveal a connection between keywords and chapter divisions.

arxiv情報

著者 Lida Aleksanyan,Armen E. Allahverdyan
発行日 2023-07-26 07:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL パーマリンク