KSW: Khmer Stop Word based Dictionary for Keyword Extraction

要約

このペーパーでは、特殊なストップワード辞書を活用した、キーワード抽出に対するクメール語特有のアプローチである KSW を紹介します。
クメール語では利用可能な自然言語処理リソースが限られているため、効果的なキーワード抽出は大きな課題でした。
KSW は、カスタマイズされたストップワード辞書を開発し、ストップワードを除去するための前処理手法を実装することでこの問題に対処し、それによって意味のあるキーワードの抽出を強化します。
私たちの実験は、KSW が以前の方法と比較して精度と関連性が大幅に向上していることを実証し、クメール語テキストの処理と情報検索を進歩させる可能性を強調しています。
ストップワード辞書を含む KSW リソースは、次の GitHub リポジトリで入手できます: (https://github.com/back-kh/KSWv2-Khmer-Stop-Word-based-Dictionary-for-Keyword-Extraction.git)
)。

要約(オリジナル)

This paper introduces KSW, a Khmer-specific approach to keyword extraction that leverages a specialized stop word dictionary. Due to the limited availability of natural language processing resources for the Khmer language, effective keyword extraction has been a significant challenge. KSW addresses this by developing a tailored stop word dictionary and implementing a preprocessing methodology to remove stop words, thereby enhancing the extraction of meaningful keywords. Our experiments demonstrate that KSW achieves substantial improvements in accuracy and relevance compared to previous methods, highlighting its potential to advance Khmer text processing and information retrieval. The KSW resources, including the stop word dictionary, are available at the following GitHub repository: (https://github.com/back-kh/KSWv2-Khmer-Stop-Word-based-Dictionary-for-Keyword-Extraction.git).

arxiv情報

著者 Nimol Thuon,Wangrui Zhang,Sada Thuon
発行日 2024-05-27 17:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク