要約
Ancholik-nerは、バングラ地域の方言で指名されたエンティティ認識(NER)の言語的に多様なデータセットであり、シレット、チッタゴン、バリシャル、ノアカリ、マイメンシンのバリエーションをキャプチャします。
データセットには、地域あたり約17,405文、3,481文があります。
データは、2つの公開されているデータセットから、さまざまなオンライン新聞、記事からWebスクレイピングを通じて収集されました。
高品質の注釈を確保するために、バイオタグ付けスキームが採用され、地域の方言の専門知識を持つ専門的なアノテーターがラベリングプロセスを実施しました。
データセットは、各地域の個別のサブセットに構造化されており、CSV形式で使用できます。
各エントリには、識別された名前付きエンティティとそれに対応する注釈とともに、テキストデータが含まれています。
名前付きエンティティは、人、場所、組織、食品、動物、色、役割、関係、オブジェクト、その他の10個の異なるクラスに分類されます。
このデータセットは、バングラ方言のバリエーションのNERモデルを開発および評価するための貴重なリソースとして機能し、地域の言語処理と低リソースNLPアプリケーションに貢献します。
バングラ方言のNERシステムを強化し、地域の言語理解を改善し、機械翻訳、情報検索、および会話型AIのアプリケーションをサポートするために利用できます。
要約(オリジナル)
ANCHOLIK-NER is a linguistically diverse dataset for Named Entity Recognition (NER) in Bangla regional dialects, capturing variations across Sylhet, Chittagong, Barishal, Noakhali, and Mymensingh. The dataset has around 17,405 sentences, 3,481 sentences per region. The data was collected from two publicly available datasets and through web scraping from various online newspapers, articles. To ensure high-quality annotations, the BIO tagging scheme was employed, and professional annotators with expertise in regional dialects carried out the labeling process. The dataset is structured into separate subsets for each region and is available in CSV format. Each entry contains textual data along with identified named entities and their corresponding annotations. Named entities are categorized into ten distinct classes: Person, Location, Organization, Food, Animal, Colour, Role, Relation, Object, and Miscellaneous. This dataset serves as a valuable resource for developing and evaluating NER models for Bangla dialectal variations, contributing to regional language processing and low-resource NLP applications. It can be utilized to enhance NER systems in Bangla dialects, improve regional language understanding, and support applications in machine translation, information retrieval, and conversational AI.
arxiv情報
著者 | Bidyarthi Paul,Faika Fairuj Preotee,Shuvashis Sarker,Shamim Rahim Refat,Shifat Islam,Tashreef Muhammad,Mohammad Ashraful Hoque,Shahriar Manzoor |
発行日 | 2025-03-14 14:13:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google