要約
この論文では、主にソーシャル メディアで使用される北アフリカ アラビア語のローマ字形式である NArabizi の注釈付きデータの不足が自然言語処理 (NLP) の課題となっていることに対処します。
我々は、3 つの主な貢献を備えた NArabizi Treebank の強化版 (Seddah et al., 2020) を紹介します。 2 つの新しい注釈層 (固有表現認識と不快な言語検出) の追加と、トークン化、形態構文、およびトークン化の再注釈です。
注釈の一貫性を保証する構文レイヤー。
さまざまなトークン化スキームを使用した私たちの実験結果は、私たちの貢献の価値を示し、NER と依存関係の解析に非ゴールド トークン化を使用した場合の影響を強調しています。
将来の研究を促進するために、これらの注釈を一般公開します。
私たちの強化された NArabizi Treebank は、この過小評価されている言語のための洗練された言語モデルと NLP ツールを作成する道を開きます。
要約(オリジナル)
In this paper we address the scarcity of annotated data for NArabizi, a Romanized form of North African Arabic used mostly on social media, which poses challenges for Natural Language Processing (NLP). We introduce an enriched version of NArabizi Treebank (Seddah et al., 2020) with three main contributions: the addition of two novel annotation layers (named entity recognition and offensive language detection) and a re-annotation of the tokenization, morpho-syntactic and syntactic layers that ensure annotation consistency. Our experimental results, using different tokenization schemes, showcase the value of our contributions and highlight the impact of working with non-gold tokenization for NER and dependency parsing. To facilitate future research, we make these annotations publicly available. Our enhanced NArabizi Treebank paves the way for creating sophisticated language models and NLP tools for this under-represented language.
arxiv情報
著者 | Riabi Arij,Mahamdi Menel,Seddah Djamé |
発行日 | 2023-06-26 17:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google