要約
レズビアン、ゲイ、バイセクシュアル、トランスジェンダー、クィアなど (LGBTQ+) を含む性的マイノリティーおよび性的マイノリティを自認する個人は、異性愛者やシスジェンダーの人々よりも健康状態が悪化する可能性が高くなります。
これらの健康格差を引き起こす主な原因の 1 つは、マイノリティーのストレス (つまり、支配的な文化に適応する LGBTQ+ コミュニティの経験に特有の慢性的および社会的ストレス要因) です。
このストレスは、ソーシャル メディア プラットフォーム上の LGBTQ+ ユーザーの投稿に頻繁に表現されています。
しかし、これらの表現は、少数派のストレスをそのまま表したものではありません。
これらは言語の複雑さ (イディオムや語彙の多様性など) を伴うため、多くの従来の自然言語処理手法では検出が困難になります。
この研究では、グラフ ニューラル ネットワーク (GNN) とトランスフォーマーの双方向エンコーダー表現 (BERT) を使用したハイブリッド モデルを設計しました。これは、少数派ストレス検出の分類パフォーマンスを向上させるための事前トレーニング済みの深層言語モデルです。
私たちは、マイノリティのストレス検出 (LGBTQ+ MiSSoM+) のベンチマーク ソーシャル メディア データセットでモデルを実験しました。
このデータセットは、LGBTQ+ サブレディットからの人間による注釈が付けられた 5,789 件の Reddit 投稿で構成されています。
私たちのアプローチでは、膨大な量の生データの事前トレーニングを通じて隠された言語のニュアンスを抽出できると同時に、ラベル付きトレーニング データとラベルなしテスト データの両方の表現を共同開発するトランスダクティブ学習にも取り組んでいます。
RoBERTa-GCN モデルは 0.86 の精度と 0.86 の F1 スコアを達成し、LGBTQ+ マイノリティのストレスの予測において他のベースライン モデルのパフォーマンスを上回りました。
ソーシャルメディア上での少数派のストレス表現の予測が改善されれば、ストレスに敏感な健康上の問題を抱えているコミュニティであるLGBTQ+の人々の幸福を改善するためのデジタル健康介入につながる可能性がある。
要約(オリジナル)
Individuals who identify as sexual and gender minorities, including lesbian, gay, bisexual, transgender, queer, and others (LGBTQ+) are more likely to experience poorer health than their heterosexual and cisgender counterparts. One primary source that drives these health disparities is minority stress (i.e., chronic and social stressors unique to LGBTQ+ communities’ experiences adapting to the dominant culture). This stress is frequently expressed in LGBTQ+ users’ posts on social media platforms. However, these expressions are not just straightforward manifestations of minority stress. They involve linguistic complexity (e.g., idiom or lexical diversity), rendering them challenging for many traditional natural language processing methods to detect. In this work, we designed a hybrid model using Graph Neural Networks (GNN) and Bidirectional Encoder Representations from Transformers (BERT), a pre-trained deep language model to improve the classification performance of minority stress detection. We experimented with our model on a benchmark social media dataset for minority stress detection (LGBTQ+ MiSSoM+). The dataset is comprised of 5,789 human-annotated Reddit posts from LGBTQ+ subreddits. Our approach enables the extraction of hidden linguistic nuances through pretraining on a vast amount of raw data, while also engaging in transductive learning to jointly develop representations for both labeled training data and unlabeled test data. The RoBERTa-GCN model achieved an accuracy of 0.86 and an F1 score of 0.86, surpassing the performance of other baseline models in predicting LGBTQ+ minority stress. Improved prediction of minority stress expressions on social media could lead to digital health interventions to improve the wellbeing of LGBTQ+ people-a community with high rates of stress-sensitive health problems.
arxiv情報
著者 | S. Chapagain,Y. Zhao,T. K. Rohleen,S. M. Hamdi,S. F. Boubrahimi,R. E. Flinn,E. M. Lund,D. Klooster,J. R. Scheer,C. J. Cascalheira |
発行日 | 2024-11-20 18:35:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google