Enhancing Pashto Text Classification using Language Processing Techniques for Single And Multi-Label Analysis

要約

タイトル:言語処理技術を使用して単一および多ラベル分析のためのパシュト語テキスト分類を向上する

要約:

– テキスト分類は、様々な分野で重要なタスクになり、国内および国際言語向けの自動テキスト分類システムの開発に重要な量の研究がされてきた。
– しかし、地元の言語に適用できる自動テキスト分類システムの必要性が高まっている。
– この研究は、パシュト語テキストの自動分類システムを確立することを目的としている。
– この目標を達成するために、パシュト語の文書データセットを作成し、DistilBERT-base-multilingual-cased、Multilayer Perceptron、Support Vector Machine、K Nearest Neighbor、decision tree、Gaussian na\’ive Bayes、multinomial na\’ive Bayes、random forest、logistic regressionなどの統計およびニューラル機械学習モデルを適用し、最も効果的なアプローチを特定しました。
– bag of wordsとTerm Frequency Inverse Document Frequencyの2つの異なる特徴抽出方法も評価しました。
– MLP分類アルゴリズムとTFIDF特徴抽出方法を使用した単一ラベルマルチクラス分類では、平均テスト精度率が94%に達しました。同様に、MLP + TFIDFは最良の結果を示し、F1スコアは0.81でした。
– また、DistilBERTなどの事前学習言語表現モデルの使用は、パシュト語テキスト分類に有望な結果を示しましたが、特定の言語用にトークナイザーを開発することが重要であることが研究で強調されています。

要約(オリジナル)

Text classification has become a crucial task in various fields, leading to a significant amount of research on developing automated text classification systems for national and international languages. However, there is a growing need for automated text classification systems that can handle local languages. This study aims to establish an automated classification system for Pashto text. To achieve this goal, we constructed a dataset of Pashto documents and applied various models, including statistical and neural machine learning models such as DistilBERT-base-multilingual-cased, Multilayer Perceptron, Support Vector Machine, K Nearest Neighbor, decision tree, Gaussian na\’ive Bayes, multinomial na\’ive Bayes, random forest, and logistic regression, to identify the most effective approach. We also evaluated two different feature extraction methods, bag of words and Term Frequency Inverse Document Frequency. The study achieved an average testing accuracy rate of 94% using the MLP classification algorithm and TFIDF feature extraction method in single-label multiclass classification. Similarly, MLP+TFIDF yielded the best results, with an F1-measure of 0.81. Furthermore, the use of pre-trained language representation models, such as DistilBERT, showed promising results for Pashto text classification; however, the study highlights the importance of developing a specific tokenizer for a particular language to achieve reasonable results.

arxiv情報

著者 Mursal Dawodi,Jawid Ahmad Baktash
発行日 2023-05-04 23:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク