Lexicon and Rule-based Word Lemmatization Approach for the Somali Language

要約

レンマタイゼーションとは、自然言語処理(NLP)の手法の一つで、単語の形態素派生をその語根形に変更することによってテキストを正規化するために用いられる。テキスト索引作成、情報検索、自然言語処理のための機械学習など、多くの自然言語処理タスクの中核となる前処理ステップとして使用される。本論文は、NLP手法やデータセットの効果的な採用が非常に限られている、あるいは全く行われていない低リソース言語であるソマリア語のテキストレマタイゼーションの開発に先駆けたものである。特に、様々な自然言語処理タスクのための本格的なソマリ語lemmatizationシステムの出発点となる、ソマリ語テキストの語彙とルールベースのlemmatizerを開発する。言語形態規則を考慮し、1247語の語根と7173語の派生語からなる初期辞書を作成し、辞書にない単語をレマタイズするためのルールを強化した。ニュース記事、ソーシャルメディアへの投稿、テキストメッセージなど、様々な長さの120の文書でアルゴリズムをテストした。初期の結果では、このアルゴリズムは、比較的長い文書(ニュース記事全文など)で57.57%、ニュース記事抜粋で60.57%、ソーシャルメディアメッセージのような短いテキストで95.87%の高い精度を達成した。

要約(オリジナル)

Lemmatization is a Natural Language Processing (NLP) technique used to normalize text by changing morphological derivations of words to their root forms. It is used as a core pre-processing step in many NLP tasks including text indexing, information retrieval, and machine learning for NLP, among others. This paper pioneers the development of text lemmatization for the Somali language, a low-resource language with very limited or no prior effective adoption of NLP methods and datasets. We especially develop a lexicon and rule-based lemmatizer for Somali text, which is a starting point for a full-fledged Somali lemmatization system for various NLP tasks. With consideration of the language morphological rules, we have developed an initial lexicon of 1247 root words and 7173 derivationally related terms enriched with rules for lemmatizing words not present in the lexicon. We have tested the algorithm on 120 documents of various lengths including news articles, social media posts, and text messages. Our initial results demonstrate that the algorithm achieves an accuracy of 57\% for relatively long documents (e.g. full news articles), 60.57\% for news article extracts, and high accuracy of 95.87\% for short texts such as social media messages.

arxiv情報

著者 Shafie Abdi Mohamed,Muhidin Abdullahi Mohamed
発行日 2023-08-03 14:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク