要約
固有表現認識 (NER) は、自然言語処理 (NLP) アプリケーションの便利なコンポーネントです。
機械翻訳、要約、情報検索、質問応答システムなどのさまざまなタスクで使用されます。
NER に関する研究は英語およびその他の主要言語を中心に行われていますが、インドの言語にはあまり注目されていません。
私たちは課題を分析し、インド言語の多言語固有表現認識に合わせて調整できる手法を提案します。
私たちは、インドの 2 つの主要な言語族の 4 つのインド言語の 40,000 文からなる人間による注釈付きの名前付きエンティティ コーパスを提示します。
さらに、データセットで微調整された多言語モデルを提示します。これは、データセットで平均 0.80 の F1 スコアを達成します。
インド言語のまったく見たことのないベンチマーク データセットでも同等のパフォーマンスを達成しており、モデルの使いやすさが裏付けられています。
要約(オリジナル)
Named Entity Recognition (NER) is a useful component in Natural Language Processing (NLP) applications. It is used in various tasks such as Machine Translation, Summarization, Information Retrieval, and Question-Answering systems. The research on NER is centered around English and some other major languages, whereas limited attention has been given to Indian languages. We analyze the challenges and propose techniques that can be tailored for Multilingual Named Entity Recognition for Indian Languages. We present a human annotated named entity corpora of 40K sentences for 4 Indian languages from two of the major Indian language families. Additionally,we present a multilingual model fine-tuned on our dataset, which achieves an F1 score of 0.80 on our dataset on average. We achieve comparable performance on completely unseen benchmark datasets for Indian languages which affirms the usability of our model.
arxiv情報
著者 | Sankalp Bahad,Pruthwik Mishra,Karunesh Arora,Rakesh Chandra Balabantaray,Dipti Misra Sharma,Parameswari Krishnamurthy |
発行日 | 2024-05-10 12:57:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google