SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes

要約

我々は、単語の分割、形態学的タグ付け、係り受け解析、複合型の識別などのいくつかのタスクの計算言語分析を容易にする、SanskritShala (サンスクリット語の学校) という名前のニューラル サンスクリット自然言語処理 (NLP) ツールキットを紹介します。
当社のシステムは現在、すべてのタスクの利用可能なベンチマーク データセットで最先端のパフォーマンスを報告します。
SanskritShala は Web ベースのアプリケーションとして展開され、ユーザーは特定の入力に対してリアルタイム分析を行うことができます。
これは、使いやすいインタラクティブなデータ注釈機能を備えて構築されており、アノテーターがシステムの予測を誤った場合に修正できるようになります。
私たちは、ツールキットに含まれる 4 つのモジュールのソース コード、公的に入手可能なサンスクリット語コーパスでトレーニングされた 7 つの単語埋め込みモデル、および単語埋め込みの固有の特性を評価するための単語の類似性、関連性、分類、類推予測などの複数の注釈付きデータセットを公開します。

私たちが知る限り、これは Web ベースのインターフェイスと多数の NLP モジュールを備えた、ニューラルベースのサンスクリット語 NLP ツールキットとしては初めてです。
サンスクリット語を使用したいと考えている人は、サンスクリット語が教育的および注釈の目的に役立つと確信しています。
SanskritShala は https://cnerg.iitkgp.ac.in/sanskritshala で入手できます。
当社のプラットフォームのデモビデオは、https://youtu.be/x0X31Y9k0mw4 からアクセスできます。

要約(オリジナル)

We present a neural Sanskrit Natural Language Processing (NLP) toolkit named SanskritShala (a school of Sanskrit) to facilitate computational linguistic analyses for several tasks such as word segmentation, morphological tagging, dependency parsing, and compound type identification. Our systems currently report state-of-the-art performance on available benchmark datasets for all tasks. SanskritShala is deployed as a web-based application, which allows a user to get real-time analysis for the given input. It is built with easy-to-use interactive data annotation features that allow annotators to correct the system predictions when it makes mistakes. We publicly release the source codes of the 4 modules included in the toolkit, 7 word embedding models that have been trained on publicly available Sanskrit corpora and multiple annotated datasets such as word similarity, relatedness, categorization, analogy prediction to assess intrinsic properties of word embeddings. So far as we know, this is the first neural-based Sanskrit NLP toolkit that has a web-based interface and a number of NLP modules. We are sure that the people who are willing to work with Sanskrit will find it useful for pedagogical and annotative purposes. SanskritShala is available at: https://cnerg.iitkgp.ac.in/sanskritshala. The demo video of our platform can be accessed at: https://youtu.be/x0X31Y9k0mw4.

arxiv情報

著者 Jivnesh Sandhan,Anshul Agarwal,Laxmidhar Behera,Tushar Sandhan,Pawan Goyal
発行日 2023-05-29 07:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク