LTCR: Long-Text Chinese Rumor Detection Dataset

要約

誤った情報はソーシャルメディア上で急速に拡散し、国民の行動や社会的出来事への反応に悪影響を与える可能性があります。
すべてのフェイク ニュース、特に完全に見つけるのが難しい長いテキストをより効果的に検出するために、LTCR という名前の長いテキストの中国の噂検出データセットが提案されています。
LTCR データセットは、特に新型コロナウイルス感染症に関連する複雑なフェイク ニュースの状況において、誤った情報を正確に検出するための貴重なリソースを提供します。
このデータセットは、それぞれ 1,729 件の本物のニュースと 500 件のフェイク ニュースで構成されています。
本物のニュースとフェイク ニュースの平均長は約 230 文字と 152 文字です。
また、データセット上で最高の精度 (95.85%)、フェイクニュース再現率 (90.91%)、および F スコア (90.60%) を達成する \method、Salience を意識したフェイクニュース検出モデルも提案します。
(https://github.com/Enderfga/DoubleCheck)

要約(オリジナル)

False information can spread quickly on social media, negatively influencing the citizens’ behaviors and responses to social events. To better detect all of the fake news, especially long texts which are harder to find completely, a Long-Text Chinese Rumor detection dataset named LTCR is proposed. The LTCR dataset provides a valuable resource for accurately detecting misinformation, especially in the context of complex fake news related to COVID-19. The dataset consists of 1,729 and 500 pieces of real and fake news, respectively. The average lengths of real and fake news are approximately 230 and 152 characters. We also propose \method, Salience-aware Fake News Detection Model, which achieves the highest accuracy (95.85%), fake news recall (90.91%) and F-score (90.60%) on the dataset. (https://github.com/Enderfga/DoubleCheck)

arxiv情報

著者 Ziyang Ma,Mengsha Liu,Guian Fang,Ying Shen
発行日 2023-06-13 08:08:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク