Enhancing Depressive Post Detection in Bangla: A Comparative Study of TF-IDF, BERT and FastText Embeddings

要約

ソーシャル メディアの大量導入により、特にバングラ語など過小評価されている言語では、ソーシャル メディア分析によるユーザーのうつ病の検出が非常に重要になります。
この研究では、高度な自然言語処理技術を利用して、バングラの憂鬱なソーシャルメディア投稿を特定するための根拠のあるアプローチを紹介しています。
この作業で使用されるデータセットには、分野の専門家によって注釈が付けられており、うつ病と非うつ病の両方の投稿が含まれており、モデルのトレーニングと評価のための高品質のデータが保証されます。
クラスの不均衡という蔓延する問題に対処するために、少数派クラスに対してランダムなオーバーサンプリングを利用し、それによって憂鬱な投稿を正確に検出するモデルの能力を強化しました。
私たちは、用語周波数 – 逆文書周波数 (TF-IDF)、トランスフォーマーからの双方向エンコーダー表現 (BERT) 埋め込み、および FastText 埋め込みを含むさまざまな数値表現手法を、深層学習ベースの畳み込みニューラル ネットワーク (双方向長短) と統合することによって検討しました。
用語記憶 (CNN-BiLSTM) モデル。
広範な実験を通じて得られた結果は、BERT アプローチが他のアプローチよりも優れたパフォーマンスを示し、84% の F1 スコアを達成したことを示しています。
これは、BERT が CNN-BiLSTM アーキテクチャと組み合わせることで、憂鬱な内容に関連するバングラ語テキストのニュアンスを効果的に認識できることを示しています。
既存の最先端の手法との比較分析により、BERT 埋め込みを使用したアプローチが、評価指標とデータセット アノテーションの信頼性の点で他のアプローチよりも優れていることが実証されました。
私たちの研究は、バングラ語での憂鬱な投稿を検出するための信頼できるツールの開発に大きく貢献しました。
この研究は、さまざまな埋め込み技術と深層学習モデルの有効性を強調することで、ソーシャル メディア プラットフォームを通じてメンタルヘルスのモニタリングを改善する道を切り開きます。

要約(オリジナル)

Due to massive adoption of social media, detection of users’ depression through social media analytics bears significant importance, particularly for underrepresented languages, such as Bangla. This study introduces a well-grounded approach to identify depressive social media posts in Bangla, by employing advanced natural language processing techniques. The dataset used in this work, annotated by domain experts, includes both depressive and non-depressive posts, ensuring high-quality data for model training and evaluation. To address the prevalent issue of class imbalance, we utilised random oversampling for the minority class, thereby enhancing the model’s ability to accurately detect depressive posts. We explored various numerical representation techniques, including Term Frequency-Inverse Document Frequency (TF-IDF), Bidirectional Encoder Representations from Transformers (BERT) embedding and FastText embedding, by integrating them with a deep learning-based Convolutional Neural Network-Bidirectional Long Short-Term Memory (CNN-BiLSTM) model. The results obtained through extensive experimentation, indicate that the BERT approach performed better the others, achieving a F1-score of 84%. This indicates that BERT, in combination with the CNN-BiLSTM architecture, effectively recognises the nuances of Bangla texts relevant to depressive contents. Comparative analysis with the existing state-of-the-art methods demonstrates that our approach with BERT embedding performs better than others in terms of evaluation metrics and the reliability of dataset annotations. Our research significantly contribution to the development of reliable tools for detecting depressive posts in the Bangla language. By highlighting the efficacy of different embedding techniques and deep learning models, this study paves the way for improved mental health monitoring through social media platforms.

arxiv情報

著者 Saad Ahmed Sazan,Mahdi H. Miraz,A B M Muntasir Rahman
発行日 2024-07-12 11:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク