Written and spoken corpus of real and fake social media postings about COVID-19

要約

この研究では、フェイクニュースと本物のニュースの言語的特徴を調査します。
この調査には、テキスト データと音声データの 2 つの部分があります。
この研究のテキストデータは、Patwaらから再フィルタリングされた6420件の新型コロナウイルス感染症関連ツイートで構成されていた。
(2021年)。
クリーニング後、データセットには 3049 件のツイートが含まれており、そのうち 2161 件は「本物」、888 件は「偽」とラベル付けされていました。
この研究の音声データは、新型コロナウイルス感染症関連のビデオに焦点を当てて TikTok から収集されました。
研究アシスタントが信頼できる情報源を使用して各動画のコンテンツを事実確認し、「本物」、「偽物」、または「問題あり」のラベルを付けた結果、200 本の TikTok 動画から 91 個の本物のエントリと 109 個の偽エントリのデータセットが作成され、合計ワード数は
53,710語。
データは、言語データのパターンを検出するために、Linguistic Recruity and Word Count (LIWC) ソフトウェアを使用して分析されました。
その結果、文字データと音声データの両方において、フェイク ニュースと本物のニュースを区別する一連の言語的特徴が示されました。
これは、信頼の形成、ソーシャルメディアでのやり取り、フェイクニュースの伝播における言語の役割について貴重な洞察を提供します。

要約(オリジナル)

This study investigates the linguistic traits of fake news and real news. There are two parts to this study: text data and speech data. The text data for this study consisted of 6420 COVID-19 related tweets re-filtered from Patwa et al. (2021). After cleaning, the dataset contained 3049 tweets, with 2161 labeled as ‘real’ and 888 as ‘fake’. The speech data for this study was collected from TikTok, focusing on COVID-19 related videos. Research assistants fact-checked each video’s content using credible sources and labeled them as ‘Real’, ‘Fake’, or ‘Questionable’, resulting in a dataset of 91 real entries and 109 fake entries from 200 TikTok videos with a total word count of 53,710 words. The data was analysed using the Linguistic Inquiry and Word Count (LIWC) software to detect patterns in linguistic data. The results indicate a set of linguistic features that distinguish fake news from real news in both written and speech data. This offers valuable insights into the role of language in shaping trust, social media interactions, and the propagation of fake news.

arxiv情報

著者 Ng Bee Chin,Ng Zhi Ee Nicole,Kyla Kwan,Lee Yong Han Dylann,Liu Fang,Xu Hong
発行日 2023-10-06 13:21:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク