要約
インドの豊かな文化的および言語的多様性は、自然言語処理の領域(NLP)、特に名前付きエンティティ認識(NER)においてさまざまな課題をもたらします。
NERは、トークンを人、場所、組織、数などのさまざまなエンティティグループに識別して分類することを目的としたNLPタスクです。これにより、NERはコンテキストを使用する匿名化などのダウンストリームタスクに非常に役立ちます。
このペーパーでは、インドで最も話されている3つの言語、ヒンディー語、ベンガル語、マラーティー語の多言語NERモデルを構築するための作業について詳しく説明しています。
カスタムトランスモデルをトレーニングし、いくつかの事前に抑制されたモデルを微調整し、合計6つのエンティティグループに対して92.11のF1スコアを達成します。
この論文を通じて、3つの言語全体で、NERを実行するための単一のモデルを導入し、エンティティグループとタグ名の矛盾を大幅に削減することを目指しています。
要約(オリジナル)
India’s rich cultural and linguistic diversity poses various challenges in the domain of Natural Language Processing (NLP), particularly in Named Entity Recognition (NER). NER is a NLP task that aims to identify and classify tokens into different entity groups like Person, Location, Organization, Number, etc. This makes NER very useful for downstream tasks like context-aware anonymization. This paper details our work to build a multilingual NER model for the three most spoken languages in India – Hindi, Bengali & Marathi. We train a custom transformer model and fine tune a few pretrained models, achieving an F1 Score of 92.11 for a total of 6 entity groups. Through this paper, we aim to introduce a single model to perform NER and significantly reduce the inconsistencies in entity groups and tag names, across the three languages.
arxiv情報
著者 | Mohammed Amaan Dhamaskar,Rasika Ransing |
発行日 | 2025-02-06 17:37:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google