EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles

要約

この研究では、信頼できる/偏りの少ない情報源からの信頼できる記事とともに、親クレムリンの報道機関から発信された偽情報記事の多言語データセットである EUvsDisinfo を紹介します。
これは、EUvsDisinfo プロジェクトを主導する専門家によって書かれた誤りを暴く記事から直接出典されています。
私たちのデータセットは、記事の総数と個別の言語の点で、これまでで最大のリソースです。
また、最大の話題性と時間性をカバーします。
このデータセットを使用して、さまざまな言語にわたる親クレムリンの偽情報の拡散を調査し、特定の偽情報トピックを対象とした言語固有のパターンを明らかにします。
さらに、8 年間にわたるトピック分布の進化を分析し、2022 年のウクライナへの本格侵攻前に偽情報コンテンツが大幅に急増していることに注目しました。最後に、偽情報と信頼できる情報を効果的に区別するためのトレーニング モデルにおけるデータセットの適用性を実証します。
多言語設定のコンテンツ。

要約(オリジナル)

This work introduces EUvsDisinfo, a multilingual dataset of disinformation articles originating from pro-Kremlin outlets, along with trustworthy articles from credible / less biased sources. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting certain disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset’s applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings.

arxiv情報

著者 João A. Leite,Olesya Razuvayevskaya,Kalina Bontcheva,Carolina Scarton
発行日 2024-08-30 12:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク