要約
地域の方言の名前付きエンティティ認識(NER)は、特にバングラのような低リソース言語では、自然言語加工(NLP)の重要でありながら未使用の領域です。
標準的なバングラのNERシステムは進歩していますが、既存のリソースやモデルは、Barishal、Chittagong、Mymensingh、Noakhali、Sylhetなどの地域の方言の課題に特に対処していません。
このギャップを埋めるために、バングラ地域の方言でNERの最初のベンチマークデータセットであるAncholik-Nerを紹介します。
データセットは、公開されているリソースから供給され、手動翻訳が補完され、方言間で指定されたエンティティの整合性が確保されました。
このデータセットで、バングラバート、バングラバートベース、バートベース多言語ケースの3つの変圧器ベースのモデルを評価します。
私たちの調査結果は、Bert Base Multiingual Casedが地域全体で指名されたエンティティを認識するのに最適であり、MyMensinghでF1スコアが82.611%で観察されることを示しています。
全体的なパフォーマンスが強いにもかかわらず、チッタゴンのような地域では課題が残っており、モデルはより低い精度とリコールを示しています。
バングラ地域の方言の以前のNERシステムは存在しないため、私たちの仕事はこのギャップに対処するための基本的なステップを表しています。
将来の作業は、パフォーマンスの低い地域のモデルパフォーマンスの向上と、より多くの方言を含むようにデータセットを拡大し、方言を認識したNERシステムの開発を強化することに焦点を当てます。
要約(オリジナル)
Named Entity Recognition (NER) in regional dialects is a critical yet underexplored area in Natural Language Processing (NLP), especially for low-resource languages like Bangla. While NER systems for Standard Bangla have made progress, no existing resources or models specifically address the challenge of regional dialects such as Barishal, Chittagong, Mymensingh, Noakhali, and Sylhet, which exhibit unique linguistic features that existing models fail to handle effectively. To fill this gap, we introduce ANCHOLIK-NER, the first benchmark dataset for NER in Bangla regional dialects, comprising 17,405 sentences distributed across five regions. The dataset was sourced from publicly available resources and supplemented with manual translations, ensuring alignment of named entities across dialects. We evaluate three transformer-based models – Bangla BERT, Bangla BERT Base, and BERT Base Multilingual Cased – on this dataset. Our findings demonstrate that BERT Base Multilingual Cased performs best in recognizing named entities across regions, with significant performance observed in Mymensingh with an F1-score of 82.611%. Despite strong overall performance, challenges remain in region like Chittagong, where the models show lower precision and recall. Since no previous NER systems for Bangla regional dialects exist, our work represents a foundational step in addressing this gap. Future work will focus on improving model performance in underperforming regions and expanding the dataset to include more dialects, enhancing the development of dialect-aware NER systems.
arxiv情報
著者 | Bidyarthi Paul,Faika Fairuj Preotee,Shuvashis Sarker,Shamim Rahim Refat,Shifat Islam,Tashreef Muhammad,Mohammad Ashraful Hoque,Shahriar Manzoor |
発行日 | 2025-05-27 17:14:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google