要約
リソースが少ない言語のコンテキストでは、アルジェリア方言 (AD) は注釈付きコーパスがないため、効果的な処理が妨げられるという課題に直面しており、特にトレーニングと評価にコーパスに依存する機械学習 (ML) アプリケーションで顕著です。
この研究では、FASSILA と呼ばれる AD におけるフェイク ニュース (FN) 検出とセンチメント分析 (SA) に特化したコーパスの開発プロセスの概要を説明します。
このコーパスは、AD の 19,497 を超える固有の単語を含む 10,087 の文で構成されており、この言語の言語リソースの重大な不足に対処し、7 つの異なる領域をカバーしています。
データ収集、クリーニング、ラベル付けのプロセスを詳細に説明する、FN 検出と SA のためのアノテーション スキームを提案します。
注目に値するアノテーター間合意は、アノテーション スキームが一貫した高品質のアノテーションを生成することを示しています。
BERT ベースのモデルと ML モデルを使用したその後の分類実験が提示され、有望な結果が示され、さらなる研究への道が強調されます。
この分野での将来の進歩を促進するために、データセットは GitHub (https://github.com/amincoding/FASSILA) で無料で利用できるようになりました。
要約(オリジナル)
In the context of low-resource languages, the Algerian dialect (AD) faces challenges due to the absence of annotated corpora, hindering its effective processing, notably in Machine Learning (ML) applications reliant on corpora for training and assessment. This study outlines the development process of a specialized corpus for Fake News (FN) detection and sentiment analysis (SA) in AD called FASSILA. This corpus comprises 10,087 sentences, encompassing over 19,497 unique words in AD, and addresses the significant lack of linguistic resources in the language and covers seven distinct domains. We propose an annotation scheme for FN detection and SA, detailing the data collection, cleaning, and labelling process. Remarkable Inter-Annotator Agreement indicates that the annotation scheme produces consistent annotations of high quality. Subsequent classification experiments using BERT-based models and ML models are presented, demonstrate promising results and highlight avenues for further research. The dataset is made freely available on GitHub (https://github.com/amincoding/FASSILA) to facilitate future advancements in the field.
arxiv情報
著者 | Amin Abdedaiem,Abdelhalim Hafedh Dahou,Mohamed Amine Cheragui,Brigitte Mathiak |
発行日 | 2024-11-07 10:39:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google