Multi-label Text Classification using GloVe and Neural Network Models

要約

この研究は、複数ラベルのテキスト分類の課題に対処します。
この問題は、不均衡なデータセット、さまざまなテキストの長さ、多数の主観的な特徴ラベルによって発生します。
既存のソリューションには、予測用の従来の機械学習とディープ ニューラル ネットワークが含まれています。
ただし、どちらのアプローチにも限界があります。
従来の機械学習では単語間の関連性が見落とされることがよくありますが、ディープ ニューラル ネットワークは分類パフォーマンスが優れているにもかかわらず、トレーニングの複雑さと時間が増加します。
本稿では、GloVeモデルとCNN-BiLSTMネットワークに基づくバッグオブワードモデルアプローチを利用した手法を提案する。
原理は、GloVe モデルによってトレーニングされた単語ベクトル行列をテキスト埋め込みレイヤーの入力として使用することです。
GloVe モデルではそれ以上のトレーニングが必要ないため、ニューラル ネットワーク モデルをより効率的にトレーニングできます。
このメソッドは、テスト セットで 87.26% の精度率と 0.8737 の F1 スコアを達成し、有望な結果を示しています。

要約(オリジナル)

This study addresses the challenges of multi-label text classification. The difficulties arise from imbalanced data sets, varied text lengths, and numerous subjective feature labels. Existing solutions include traditional machine learning and deep neural networks for predictions. However, both approaches have their limitations. Traditional machine learning often overlooks the associations between words, while deep neural networks, despite their better classification performance, come with increased training complexity and time. This paper proposes a method utilizing the bag-of-words model approach based on the GloVe model and the CNN-BiLSTM network. The principle is to use the word vector matrix trained by the GloVe model as the input for the text embedding layer. Given that the GloVe model requires no further training, the neural network model can be trained more efficiently. The method achieves an accuracy rate of 87.26% on the test set and an F1 score of 0.8737, showcasing promising results.

arxiv情報

著者 Hongren Wang
発行日 2024-05-21 09:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク