Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language


この論文では、主にソーシャル メディアで使用される北アフリカ アラビア語のローマ字形式である NArabizi の注釈付きデータの不足が自然言語処理 (NLP) の課題となっていることに対処します。
我々は、3 つの主な貢献を備えた NArabizi Treebank の強化版 (Seddah et al., 2020) を紹介します。 2 つの新しい注釈層 (固有表現認識と不快な言語検出) の追加と、トークン化、形態構文、およびトークン化の再注釈です。
さまざまなトークン化スキームを使用した私たちの実験結果は、私たちの貢献の価値を示し、NER と依存関係の解析に非ゴールド トークン化を使用した場合の影響を強調しています。
私たちの強化された NArabizi Treebank は、この過小評価されている言語のための洗練された言語モデルと NLP ツールを作成する道を開きます。


In this paper we address the scarcity of annotated data for NArabizi, a Romanized form of North African Arabic used mostly on social media, which poses challenges for Natural Language Processing (NLP). We introduce an enriched version of NArabizi Treebank (Seddah et al., 2020) with three main contributions: the addition of two novel annotation layers (named entity recognition and offensive language detection) and a re-annotation of the tokenization, morpho-syntactic and syntactic layers that ensure annotation consistency. Our experimental results, using different tokenization schemes, showcase the value of our contributions and highlight the impact of working with non-gold tokenization for NER and dependency parsing. To facilitate future research, we make these annotations publicly available. Our enhanced NArabizi Treebank paves the way for creating sophisticated language models and NLP tools for this under-represented language.


著者 Riabi Arij,Mahamdi Menel,Seddah Djamé
発行日 2023-06-26 17:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク