Gazetteer-Enhanced Bangla Named Entity Recognition with BanglaBERT Semantic Embeddings K-Means-Infused CRF Model

要約

固有表現認識 (NER) は、組織化されていないテキストから実体を事前定義された分類に区別する自然言語処理 (NLP) のサブタスクです。
近年、バングラ語の NLP サブタスクの多くが大きな注目を集めています。
しかし、バングラにおける固有表現の認識は依然として遅れています。
この研究では、バングラの固有表現認識における研究の現状を調査しました。
私たちは、現在の技術とデータセットが直面している限界を解明しようとしました。そして、研究でこれらの限界に対処したいと考えています。
さらに、NER のパフォーマンスを大幅に向上させる機能を備えた地名辞典を開発しました。
また、従来の技術を上回る最先端の NLP ツールを活用した新しい NER ソリューションも提案しました。

要約(オリジナル)

Named Entity Recognition (NER) is a sub-task of Natural Language Processing (NLP) that distinguishes entities from unorganized text into predefined categorization. In recent years, a lot of Bangla NLP subtasks have received quite a lot of attention; but Named Entity Recognition in Bangla still lags behind. In this research, we explored the existing state of research in Bangla Named Entity Recognition. We tried to figure out the limitations that current techniques and datasets face, and we would like to address these limitations in our research. Additionally, We developed a Gazetteer that has the ability to significantly boost the performance of NER. We also proposed a new NER solution by taking advantage of state-of-the-art NLP tools that outperform conventional techniques.

arxiv情報

著者 Niloy Farhan,Saman Sarker Joy,Tafseer Binte Mannan,Farig Sadeque
発行日 2024-01-30 17:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク