VNLP: Turkish NLP Package

要約

VNLPは、トルコ語専用の、完全な、オープンソースの、十分に文書化された、軽量で、生産可能な、最初の、最先端の自然言語処理(NLP)パッケージです。このパッケージには、文の分割やテキストの正規化といった最も単純なタスクから、テキストやトークンの分類モデルといった高度なタスクまで、さまざまなツールが含まれています。VNLPのトークン分類モデルは「コンテキストモデル」に基づいており、エンコーダと自己回帰モデルの両方を持つ新しいアーキテクチャです。VNLP モデルが解決する NLP タスクには、感傷分析、固有表現認識、形態素解析、品詞タグ付けなどが含まれますが、これらに限定されません。さらに、VNLP には事前に学習された単語埋め込みと、対応する SentencePiece Unigram トークナイザーが付属しています。VNLPは、オープンソースのGitHubリポジトリ、ReadtheDocsドキュメント、インストールに便利なPyPiパッケージ、PythonとコマンドラインAPI、そしてすべての機能をテストするためのデモページを持っています。その結果、私たちの主な貢献は、トルコ語のための完全で、コンパクトで、インストールが簡単で、使いやすいNLPパッケージです。

要約(オリジナル)

In this work, we present VNLP: the first dedicated, complete, open-source, well-documented, lightweight, production-ready, state-of-the-art Natural Language Processing (NLP) package for the Turkish language. It contains a wide variety of tools, ranging from the simplest tasks, such as sentence splitting and text normalization, to the more advanced ones, such as text and token classification models. Its token classification models are based on ‘Context Model’, a novel architecture that is both an encoder and an auto-regressive model. NLP tasks solved by VNLP models include but are not limited to Sentiment Analysis, Named Entity Recognition, Morphological Analysis \& Disambiguation and Part-of-Speech Tagging. Moreover, it comes with pre-trained word embeddings and corresponding SentencePiece Unigram tokenizers. VNLP has an open-source GitHub repository, ReadtheDocs documentation, PyPi package for convenient installation, Python and command-line API and a demo page to test all the functionality. Consequently, our main contribution is a complete, compact, easy-to-install and easy-to-use NLP package for Turkish.

arxiv情報

著者 Meliksah Turker,Mehmet Erdi Ari,Aydin Han
発行日 2024-03-02 20:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク