Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification

要約

クルド語の方言であるハウラミー語は、データが不足しており、話者が徐々に失われているため、絶滅危惧言語に分類されています。
自然言語処理プロジェクトを使用すると、機械翻訳、言語モデルの構築、コーパス開発などのさまざまなアプローチを通じて、絶滅の危機に瀕している言語/方言のデータ可用性を部分的に補うことができます。
同様に、テキスト分類などの NLP プロジェクトは言語ドキュメントに含まれています。
クルド語についてはいくつかのテキスト分類研究が行われてきましたが、主にソラニ語(中央クルド語)とクルマンジ(北部クルド語)という 2 つの特定の方言に特化していました。
この論文では、2 人のネイティブ スピーカーによって 15 のカテゴリにラベル付けされた Hawrami の 6,854 件の記事のデータセットを使用して、さまざまなテキスト分類モデルを紹介します。
K 近傍 (KNN)、線形サポート ベクター マシン (線形 SVM)、ロジスティック回帰 (LR)、およびデシジョン ツリー (DT) を使用して、これらのメソッドが分類タスクをどの程度適切に実行するかを評価します。
結果は、線形 SVM が 96% の精度を達成し、他のアプローチよりも優れていることを示しています。

要約(オリジナル)

Hawrami, a dialect of Kurdish, is classified as an endangered language as it suffers from the scarcity of data and the gradual loss of its speakers. Natural Language Processing projects can be used to partially compensate for data availability for endangered languages/dialects through a variety of approaches, such as machine translation, language model building, and corpora development. Similarly, NLP projects such as text classification are in language documentation. Several text classification studies have been conducted for Kurdish, but they were mainly dedicated to two particular dialects: Sorani (Central Kurdish) and Kurmanji (Northern Kurdish). In this paper, we introduce various text classification models using a dataset of 6,854 articles in Hawrami labeled into 15 categories by two native speakers. We use K-nearest Neighbor (KNN), Linear Support Vector Machine (Linear SVM), Logistic Regression (LR), and Decision Tree (DT) to evaluate how well those methods perform the classification task. The results indicate that the Linear SVM achieves a 96% of accuracy and outperforms the other approaches.

arxiv情報

著者 Aram Khaksar,Hossein Hassani
発行日 2024-09-25 12:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク