Chinese MentalBERT: Domain-Adaptive Pre-training on Social Media for Chinese Mental Health Text Analysis

要約

現在の環境では、心理的な問題が蔓延し、広範囲にわたっており、ソーシャルメディアは個人が感情を共有するための重要な手段として機能しています。
その結果、毎日膨大な量のデータが生成され、否定的な感情が危機的状況を引き起こす可能性があります。
効率的な分析が可能なモデルの必要性が認識されています。
事前トレーニングされた言語モデルはその有効性を広く実証していますが、心理学のような特殊な領域に合わせて調整された事前トレーニングされたモデルには顕著なギャップがあります。
これに対処するために、私たちは中国のソーシャル メディア プラットフォームから膨大なデータセットを収集し、それを公開されているデータセットで強化して、336 万のテキスト エントリを含む包括的なデータベースを作成しました。
心理的テキスト分析へのモデルの適用性を高めるために、心理的語彙を事前トレーニング マスキング メカニズムに統合しました。
既存の中国語モデルに基づいて適応トレーニングを実行し、心理領域に特化したモデルを開発しました。
私たちは 6 つの公開データセットにわたってモデルのパフォーマンスを評価し、他の 8 つのモデルと比較して改善が示されました。
さらに、定性的な比較実験では、マスクされた文を考慮して、私たちのモデルは心理的に関連性のある予測を提供しました。
データプライバシーに関する懸念のため、データセットは一般公開されません。
ただし、事前トレーニングされたモデルとコードは、https://github.com/zwzzzQAQ/ Chinese-MentalBERT 経由でコミュニティに公開されています。

要約(オリジナル)

In the current environment, psychological issues are prevalent and widespread, with social media serving as a key outlet for individuals to share their feelings. This results in the generation of vast quantities of data daily, where negative emotions have the potential to precipitate crisis situations. There is a recognized need for models capable of efficient analysis. While pre-trained language models have demonstrated their effectiveness broadly, there’s a noticeable gap in pre-trained models tailored for specialized domains like psychology. To address this, we have collected a huge dataset from Chinese social media platforms and enriched it with publicly available datasets to create a comprehensive database encompassing 3.36 million text entries. To enhance the model’s applicability to psychological text analysis, we integrated psychological lexicons into the pre-training masking mechanism. Building on an existing Chinese language model, we performed adaptive training to develop a model specialized for the psychological domain. We evaluated our model’s performance across six public datasets, where it demonstrated improvements compared to eight other models. Additionally, in the qualitative comparison experiment, our model provided psychologically relevant predictions given the masked sentences. Due to concerns regarding data privacy, the dataset will not be made publicly available. However, we have made the pre-trained models and codes publicly accessible to the community via: https://github.com/zwzzzQAQ/Chinese-MentalBERT.

arxiv情報

著者 Wei Zhai,Hongzhi Qi,Qing Zhao,Jianqiang Li,Ziqi Wang,Han Wang,Bing Xiang Yang,Guanghui Fu
発行日 2024-06-12 16:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク