SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes

要約

単語のセグメンテーション、形態学的タグ付け、依存関係の解析、複合型の識別などのいくつかのタスクの計算言語分析を容易にする、SanskritShala (サンスクリット語の学校) という名前のニューラル サンスクリット語自然言語処理 (NLP) ツールキットを提示します。
当社のシステムは現在、すべてのタスクについて利用可能なベンチマーク データセットで最先端のパフォーマンスを報告しています。
SanskritShala は Web ベースのアプリケーションとして展開され、ユーザーは特定の入力をリアルタイムで分析できます。
使いやすいインタラクティブなデータ注釈機能で構築されているため、アノテーターはシステム予測が間違いを犯したときにそれを修正できます。
ツールキットに含まれる 4 つのモジュールのソース コード、公開されているサンスクリット語コーパスでトレーニングされた 7 つの単語埋め込みモデル、および単語の類似性、関連性、分類、類推予測などの複数の注釈付きデータセットを公開して、単語埋め込みの固有の特性を評価します。
.
私たちが知る限り、これは Web ベースのインターフェイスと多数の NLP モジュールを備えた最初のニューラル ベースのサンスクリット語 NLP ツールキットです。
サンスクリット語を使って仕事をしたいと考える人々は、サンスクリット語が教育的および注釈的な目的に役立つと確信しています。
SanskritShala は、https://cnerg.iitkgp.ac.in/sanskritshala で入手できます。
当社のプラットフォームのデモ ビデオは、https://youtu.be/x0X31Y9k0mw4 からアクセスできます。

要約(オリジナル)

We present a neural Sanskrit Natural Language Processing (NLP) toolkit named SanskritShala (a school of Sanskrit) to facilitate computational linguistic analyses for several tasks such as word segmentation, morphological tagging, dependency parsing, and compound type identification. Our systems currently report state-of-the-art performance on available benchmark datasets for all tasks. SanskritShala is deployed as a web-based application, which allows a user to get real-time analysis for the given input. It is built with easy-to-use interactive data annotation features that allow annotators to correct the system predictions when it makes mistakes. We publicly release the source codes of the 4 modules included in the toolkit, 7 word embedding models that have been trained on publicly available Sanskrit corpora and multiple annotated datasets such as word similarity, relatedness, categorization, analogy prediction to assess intrinsic properties of word embeddings. So far as we know, this is the first neural-based Sanskrit NLP toolkit that has a web-based interface and a number of NLP modules. We are sure that the people who are willing to work with Sanskrit will find it useful for pedagogical and annotative purposes. SanskritShala is available at: https://cnerg.iitkgp.ac.in/sanskritshala. The demo video of our platform can be accessed at: https://youtu.be/x0X31Y9k0mw4.

arxiv情報

著者 Jivnesh Sandhan,Anshul Agarwal,Laxmidhar Behera,Tushar Sandhan,Pawan Goyal
発行日 2023-02-19 09:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク