A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks

要約

– 自然言語処理の分野(NLP)は、過去10年以内に劇的に拡大しました。
多くのヒューマンビーイングアプリケーションは、機械の翻訳、音声認識、テキスト生成と推奨事項、一部のスピーチタグ付け(POS)、および指定されたエンティティ認識(NER)から、NLPタスクを介して毎日実施されています。
ただし、中央クルド語(CKL)などの低資源の低い言語は、主に開発をサポートするために必要なリソースが不足しているため未検証のままです。
POSタグタスクは、他のNLPタスクのベースです。
たとえば、POSタグセットは、文の間の単語間の関係を提供するために標準化された言語に使用され、その後に機械の翻訳とテキストの推奨が続きます。
具体的には、CKLの場合、使用または提供されたPOSタグセットのほとんどは標準化されておらず、包括的ではありません。
この目的のために、この研究は、CKLの正確で包括的なPOSタグセットを提示し、クルド人のNLPタスクのパフォーマンスを向上させました。
この記事では、さまざまな研究からのPOSタグのほとんどを収集し、クルド語の言語専門家から標準化されたスピーチの一部のタグまで収集しました。
提案されたPOSタグセットは、大きなCKLコーパスに注釈を付け、クルドのNLPタスクをサポートするように設計されています。
標準言語のユニバーサル依存関係フレームワークとの比較を介したこの研究の最初の調査は、提案されたPOSタグセットがクルドのNLPタスクに対してより正確に通知または修正できることを示しています。

要約(オリジナル)

– The field of natural language processing (NLP) has dramatically expanded within the last decade. Many human-being applications are conducted daily via NLP tasks, starting from machine translation, speech recognition, text generation and recommendations, Part-of-Speech tagging (POS), and Named-Entity Recognition (NER). However, low-resourced languages, such as the Central-Kurdish language (CKL), mainly remain unexamined due to shortage of necessary resources to support their development. The POS tagging task is the base of other NLP tasks; for example, the POS tag set has been used to standardized languages to provide the relationship between words among the sentences, followed by machine translation and text recommendation. Specifically, for the CKL, most of the utilized or provided POS tagsets are neither standardized nor comprehensive. To this end, this study presented an accurate and comprehensive POS tagset for the CKL to provide better performance of the Kurdish NLP tasks. The article also collected most of the POS tags from different studies as well as from Kurdish linguistic experts to standardized part-of-speech tags. The proposed POS tagset is designed to annotate a large CKL corpus and support Kurdish NLP tasks. The initial investigations of this study via comparison with the Universal Dependencies framework for standard languages, show that the proposed POS tagset can streamline or correct sentences more accurately for Kurdish NLP tasks.

arxiv情報

著者 Shadan Shukr Sabr,Nazira Sabr Mustafa,Talar Sabah Omar,Salah Hwayyiz Rasool,Nawzad Anwer Omer,Darya Sabir Hamad,Hemin Abdulhameed Shams,Omer Mahmood Kareem,Rozhan Noori Abdullah,Khabat Atar Abdullah,Mahabad Azad Mohammad,Haneen Al-Raghefy,Safar M. Asaad,Sara Jamal Mohammed,Twana Saeed Ali,Fazil Shawrow,Halgurd S. Maghdid
発行日 2025-04-28 10:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, J.7 パーマリンク