dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features

要約

この文書では、NADI 2024 の共有タスク、特にサブタスク 1 – マルチラベルの国レベルの方言識別 (MLDID) (クローズド トラック) に対する dzNLP チームの貢献を紹介します。
この課題に対処するために、さまざまな構成を検討しました。実験 1 では、異なる N グラム値を持つ N グラム アナライザー (単語、文字、単語境界を持つ文字) の結合を利用しました。
実験 2 では、用語頻度 – 逆文書頻度 (TF-IDF) 特徴の重み付き和集合をさまざまな重みで組み合わせました。
実験 3 では、線形サポート ベクトル分類器 (LSVC)、ランダム フォレスト (RF)、および K 最近傍法 (KNN) の 3 つの分類器を使用して重み付きメジャー投票スキームを実装しました。
私たちのアプローチは、そのシンプルさと従来の機械学習技術への依存にもかかわらず、F1 スコアと精度の点で競争力のあるパフォーマンスを実証しました。
特に、参加チームの中で最も高い精度スコア 63.22% を達成しました。
ただし、全体的な F1 スコアは約 21% であり、12.87% という低い再現率の影響を大きく受けました。
これは、私たちのモデルは非常に正確であったものの、広範囲の方言ラベルを呼び出すのに苦労していることを示しており、多様な方言のバリエーションを処理する際に改善が必要な重要な領域が浮き彫りになっています。

要約(オリジナル)

This paper presents the contribution of our dzNLP team to the NADI 2024 shared task, specifically in Subtask 1 – Multi-label Country-level Dialect Identification (MLDID) (Closed Track). We explored various configurations to address the challenge: in Experiment 1, we utilized a union of n-gram analyzers (word, character, character with word boundaries) with different n-gram values; in Experiment 2, we combined a weighted union of Term Frequency-Inverse Document Frequency (TF-IDF) features with various weights; and in Experiment 3, we implemented a weighted major voting scheme using three classifiers: Linear Support Vector Classifier (LSVC), Random Forest (RF), and K-Nearest Neighbors (KNN). Our approach, despite its simplicity and reliance on traditional machine learning techniques, demonstrated competitive performance in terms of F1-score and precision. Notably, we achieved the highest precision score of 63.22% among the participating teams. However, our overall F1 score was approximately 21%, significantly impacted by a low recall rate of 12.87%. This indicates that while our models were highly precise, they struggled to recall a broad range of dialect labels, highlighting a critical area for improvement in handling diverse dialectal variations.

arxiv情報

著者 Mohamed Lichouri,Khaled Lounnas,Boualem Nadjib Zahaf,Mehdi Ayoub Rabiai
発行日 2024-07-18 15:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク