要約
マラーティー語は、世界で最も広く使用されている言語の 1 つです。
英語などの言語での NLP 研究の最新の進歩がこれほど大きなコミュニティに届くことを期待する人もいるかもしれません。
ただし、英語の NLP の進歩は、マラーティー語のようなインドの言語にはすぐには伝わりませんでした。
これにはいくつかの理由がありました。
これには、使用されるスクリプトの多様性、トークン化戦略、高品質のデータセットとベンチマーク、評価指標などの (公開されている) リソースの欠如が含まれます。
これに加えて、マラーティー語の形態学的に豊かな性質により、NLP タスクは困難なものになりました。
2000 年代初頭以降のニューラル ネットワーク (NN) ベースのモデルとツールの進歩により、この状況が改善され、NLP 研究がよりアクセスしやすくなりました。
過去 10 年間、インドで予定されている 22 言語すべての言語リソースを改善するために多大な努力が払われました。
この論文では、マラーティー語と研究コミュニティが利用できる最先端のリソースとツールに焦点を当てながら、インド諸言語での NLP 研究の進化の広範な概要を示します。
また、マラーティー語 NLP タスクに関連するツールとテクニックの概要も提供します。
要約(オリジナル)
Marathi is one of the most widely used languages in the world. One might expect that the latest advances in NLP research in languages like English reach such a large community. However, NLP advancements in English didn’t immediately reach Indian languages like Marathi. There were several reasons for this. They included diversity of scripts used, lack of (publicly available) resources like tokenization strategies, high quality datasets \& benchmarks, and evaluation metrics. In addition to this, the morphologically rich nature of Marathi, made NLP tasks challenging. Advances in Neural Network (NN) based models and tools since the early 2000s helped improve this situation and make NLP research more accessible. In the past 10 years, significant efforts were made to improve language resources for all 22 scheduled languages of India. This paper presents a broad overview of evolution of NLP research in Indic languages with a focus on Marathi and state-of-the-art resources and tools available to the research community. It also provides an overview of tools \& techniques associated with Marathi NLP tasks.
arxiv情報
著者 | Asang Dani,Shailesh R Sathe |
発行日 | 2024-12-24 13:33:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google