要約
マルチラベル感情分類では、特にアラビア語のような低リソース言語の場合、クラスの不均衡とラベル相関の問題により、特に少数派の感情を正確に予測する際にモデルのパフォーマンスが妨げられます。
これらの問題に対処するために、この研究では、スタック型埋め込み、メタ学習、およびハイブリッド損失関数を組み合わせて、アラビア語のマルチラベル感情分類を強化する新しいアプローチを提案します。
この研究では、3 つの微調整された言語モデル (ArabicBERT、MarBERT、AraBERT) からコンテキスト エンベディングを抽出し、これらを積み重ねて強化されたエンベディングを形成します。
メタ学習者はこれらのスタックされた埋め込みでトレーニングされ、結果として得られる連結表現が Bi-LSTM モデルへの入力として提供され、その後、マルチラベル分類用の完全に接続されたニューラル ネットワークが提供されます。
パフォーマンスをさらに向上させるために、クラスの重み付け、ラベル相関行列、および対照学習を組み込んだハイブリッド損失関数が導入され、クラスの不均衡に効果的に対処し、ラベル相関の処理が改善されます。
広範な実験により、精度、再現率、F1 スコア、ジャカード精度、ハミング損失などの主要な指標にわたって、提案されたモデルのパフォーマンスが検証されます。
クラスごとのパフォーマンス分析は、ハイブリッド損失関数が多数派クラスと少数派クラスの間の格差を大幅に削減し、よりバランスの取れた感情分類が得られることを示しています。
アブレーション研究では各コンポーネントの寄与が強調され、ベースライン アプローチや他の損失関数と比較したモデルの優位性が示されます。
この研究は、アラビア語のマルチラベル感情分類を進歩させるだけでなく、他の言語やドメインにも適用できる一般化可能なフレームワークを提示し、低リソースの感情分類タスクの課題に対処する上で大きな前進となります。
要約(オリジナル)
In multi-label emotion classification, particularly for low-resource languages like Arabic, the challenges of class imbalance and label correlation hinder model performance, especially in accurately predicting minority emotions. To address these issues, this study proposes a novel approach that combines stacked embeddings, meta-learning, and a hybrid loss function to enhance multi-label emotion classification for the Arabic language. The study extracts contextual embeddings from three fine-tuned language models-ArabicBERT, MarBERT, and AraBERT-which are then stacked to form enriched embeddings. A meta-learner is trained on these stacked embeddings, and the resulting concatenated representations are provided as input to a Bi-LSTM model, followed by a fully connected neural network for multi-label classification. To further improve performance, a hybrid loss function is introduced, incorporating class weighting, label correlation matrix, and contrastive learning, effectively addressing class imbalances and improving the handling of label correlations. Extensive experiments validate the proposed model’s performance across key metrics such as Precision, Recall, F1-Score, Jaccard Accuracy, and Hamming Loss. The class-wise performance analysis demonstrates the hybrid loss function’s ability to significantly reduce disparities between majority and minority classes, resulting in a more balanced emotion classification. An ablation study highlights the contribution of each component, showing the superiority of the model compared to baseline approaches and other loss functions. This study not only advances multi-label emotion classification for Arabic but also presents a generalizable framework that can be adapted to other languages and domains, providing a significant step forward in addressing the challenges of low-resource emotion classification tasks.
arxiv情報
著者 | Muhammad Azeem Aslam,Wang Jun,Nisar Ahmed,Muhammad Imran Zaman,Li Yanan,Hu Hongfei,Wang Shiyu,Xin Liu |
発行日 | 2024-11-14 14:34:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google