Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis

要約

現在、世界ではmpoxの発生が発生しており、WHOにより国際的に懸念される公衆衛生上の緊急事態が宣言されています。
ソーシャル メディア マイニングに関連するこれまでの研究では、mpox の発生に関する Instagram の投稿のデータセットの開発に焦点を当てたものはありませんでした。
この論文で紹介する研究は、この研究ギャップに対処することを目的としており、この分野に 2 つの科学的貢献をもたらします。
まず、2022 年 7 月 23 日から 2024 年 9 月 5 日までに公開された、mpox に関する 60,127 件の Instagram 投稿の多言語データセットを示しています。 https://dx.doi.org/10.21227/7fvc-y093 で入手可能なこのデータセットには、Instagram が含まれています
mpox に関する投稿が 52 か国語で掲載されています。
これらの投稿ごとに、投稿 ID、投稿の説明、公開日、言語、投稿の翻訳版 (英語への翻訳は Google Translate API を使用して実行されました) が、データセット内の個別の属性として表示されます。
このデータセットを開発した後、感情分析、ヘイトスピーチ検出、不安またはストレスの検出が実行されました。
このプロセスには、各投稿を、(i) 感情クラスの 1 つ (つまり、恐怖、驚き、喜び、悲しみ、怒り、嫌悪、または中立)、(ii) 嫌いか嫌いか、(iii) 不安/ストレスが検出されたか、または
不安やストレスは検出されませんでした。
これらの結果は、データセット内の個別の属性として表示されます。
次に、感情分析、ヘイトスピーチ分析、不安またはストレス分析を行った結果を示します。
感情クラスの変動 (恐怖、驚き、喜び、悲しみ、怒り、嫌悪感、中立) は、それぞれ 27.95%、2.57%、8.69%、5.94%、2.69%、1.53%、50.64% であることが観察されました。
ヘイトスピーチの検出に関しては、95.75% の投稿にはヘイトが含まれておらず、残りの 4.25% の投稿にはヘイトが含まれていました。
最後に、投稿の 72.05% は不安やストレスをまったく示しておらず、残りの 27.95% の投稿は何らかの形の不安やストレスを示していました。

要約(オリジナル)

The world is currently experiencing an outbreak of mpox, which has been declared a Public Health Emergency of International Concern by WHO. No prior work related to social media mining has focused on the development of a dataset of Instagram posts about the mpox outbreak. The work presented in this paper aims to address this research gap and makes two scientific contributions to this field. First, it presents a multilingual dataset of 60,127 Instagram posts about mpox, published between July 23, 2022, and September 5, 2024. The dataset, available at https://dx.doi.org/10.21227/7fvc-y093, contains Instagram posts about mpox in 52 languages. For each of these posts, the Post ID, Post Description, Date of publication, language, and translated version of the post (translation to English was performed using the Google Translate API) are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis, hate speech detection, and anxiety or stress detection were performed. This process included classifying each post into (i) one of the sentiment classes, i.e., fear, surprise, joy, sadness, anger, disgust, or neutral, (ii) hate or not hate, and (iii) anxiety/stress detected or no anxiety/stress detected. These results are presented as separate attributes in the dataset. Second, this paper presents the results of performing sentiment analysis, hate speech analysis, and anxiety or stress analysis. The variation of the sentiment classes – fear, surprise, joy, sadness, anger, disgust, and neutral were observed to be 27.95%, 2.57%, 8.69%, 5.94%, 2.69%, 1.53%, and 50.64%, respectively. In terms of hate speech detection, 95.75% of the posts did not contain hate and the remaining 4.25% of the posts contained hate. Finally, 72.05% of the posts did not indicate any anxiety/stress, and the remaining 27.95% of the posts represented some form of anxiety/stress.

arxiv情報

著者 Nirmalya Thakur
発行日 2024-09-09 03:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI, H.2.8 パーマリンク