Towards Robust Bangla Complex Named Entity Recognition

要約

Named Entity Recognition (NER) は、テキスト内の名前付きエンティティの識別と分類を含む自然言語処理の基本的なタスクです。
しかし、世界で 7 番目に話されている言語であるにもかかわらず、バングラ語での複雑な名前付きエンティティの認識については、多くの作業が行われていません。
CNER は、バングラ語では一般的ではない複雑な複合エンティティの識別と分類を含むため、従来の NER よりも困難なタスクです。
このホワイト ペーパーでは、Bangla Complex Named Entity Recognition Challenge の勝利ソリューションを紹介します。つまり、条件付きランダム フィールド (CRF) と、BanglaBERT などの深層学習モデルに基づくトランスフォーマーの微調整という 2 つの異なるアプローチを使用して、BanglaConER データセットの CNER タスクに対処します。
データセットは、トレーニング用の 15300 文と検証用の 800 文で構成され、.conll 形式でした。
データセットの探索的データ分析 (EDA) により、データセットには 7 つの異なる NER タグがあり、英語の単語が顕著に存在することが明らかになりました。これは、データセットが合成であり、翻訳の産物である可能性が高いことを示唆しています。
品詞 (POS) タグ、単語サフィックス、Gazetteers、および埋め込みからのクラスター情報を含むさまざまな機能の組み合わせを実験し、NER の BanglaBERT (大) モデルを微調整しました。
すべての言語パターンが人間にとってすぐにわかる、または直感的でさえあるわけではないことがわかりました。これが、CNER タスクを含む NLP でディープ ラーニング ベースのモデルがより効果的なモデルであることが証明された理由です。
微調整された BanglaBERT (大) モデルは、検証セットで 0.79 の F1 スコアを達成します。
全体として、私たちの研究は、特に合成データセットのコンテキストにおいて、Bangla Complex Named Entity Recognition の重要性を強調しています。
私たちの調査結果は、バングラ語の NER に対する BanglaBERT などの深層学習モデルの有効性も示しています。

要約(オリジナル)

Named Entity Recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying named entities in text. But much work hasn’t been done for complex named entity recognition in Bangla, despite being the seventh most spoken language globally. CNER is a more challenging task than traditional NER as it involves identifying and classifying complex and compound entities, which are not common in Bangla language. In this paper, we present the winning solution of Bangla Complex Named Entity Recognition Challenge – addressing the CNER task on BanglaCoNER dataset using two different approaches, namely Conditional Random Fields (CRF) and finetuning transformer based Deep Learning models such as BanglaBERT. The dataset consisted of 15300 sentences for training and 800 sentences for validation, in the .conll format. Exploratory Data Analysis (EDA) on the dataset revealed that the dataset had 7 different NER tags, with notable presence of English words, suggesting that the dataset is synthetic and likely a product of translation. We experimented with a variety of feature combinations including Part of Speech (POS) tags, word suffixes, Gazetteers, and cluster information from embeddings, while also finetuning the BanglaBERT (large) model for NER. We found that not all linguistic patterns are immediately apparent or even intuitive to humans, which is why Deep Learning based models has proved to be the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT (large) model achieves an F1 Score of 0.79 on the validation set. Overall, our study highlights the importance of Bangla Complex Named Entity Recognition, particularly in the context of synthetic datasets. Our findings also demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in Bangla language.

arxiv情報

著者 HAZ Sameen Shahgir,Ramisa Alam,Md. Zarif Ul Alam
発行日 2023-03-16 13:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク