Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset

要約

デマは、ウィキペディアのような参照知識資源の信頼性に深刻な影響を及ぼす可能性がある、意図的に作られた偽情報の一形態として認識されている。ウィキペディアのデマを発見するのが難しいのは、デマがしばしば公式のスタイルガイドラインに従って書かれているからです。この研究では、まず、ウィキペディアの正規記事とデマ記事の類似点と相違点の体系的な分析を行い、311のデマ記事(既存の文献やウィキペディアの公式リストから)を意味的に類似した実際の記事とともに集めたHoaxpediaを紹介する。Wikipediaの記事が本物かデマかを予測するタスクにおける二値分類実験の結果を報告し、いくつかの設定と様々な言語モデルを分析する。我々の結果は、これまであまり研究されてこなかったにもかかわらず、内容のみに基づいてウィキペディアの欺瞞的な内容を検出することが、有望な方向性であることを示唆している。

要約(オリジナル)

Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of the similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 Hoax articles (from existing literature as well as official Wikipedia lists) alongside semantically similar real articles. We report results of binary classification experiments in the task of predicting whether a Wikipedia article is real or hoax, and analyze several settings as well as a range of language models. Our results suggest that detecting deceitful content in Wikipedia based on content alone, despite not having been explored much in the past, is a promising direction.

arxiv情報

著者 Hsuvas Borkakoty,Luis Espinosa-Anke
発行日 2024-05-03 15:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク