Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset

要約

デマは意図的に作成された偽情報の一種として認識されており、Wikipedia などの参考知識リソースの信頼性に重​​大な影響を与える可能性があります。
Wikipedia のデマを見分けるのが難しいのは、そのデマが公式のスタイル ガイドラインに従って書かれていることが多いためです。
この研究では、まず、正規の Wikipedia 記事とデマの Wikipedia 記事の間の類似点と不一致の体系的な分析を提供し、意味的に類似した実際の記事と並べて (既存の文献および公式 Wikipedia リストからの) 311 のデマ記事のコレクションである Hoaxpedia を紹介します。
私たちは、Wikipedia の記事が本物かデマかを予測するタスクにおける二値分類実験の結果を報告し、いくつかの設定とさまざまな言語モデルを分析します。
私たちの結果は、これまであまり調査されていなかったにもかかわらず、コンテンツのみに基づいて Wikipedia 内の虚偽のコンテンツを検出することが有望な方向性であることを示唆しています。

要約(オリジナル)

Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of the similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 Hoax articles (from existing literature as well as official Wikipedia lists) alongside semantically similar real articles. We report results of binary classification experiments in the task of predicting whether a Wikipedia article is real or hoax, and analyze several settings as well as a range of language models. Our results suggest that detecting deceitful content in Wikipedia based on content alone, despite not having been explored much in the past, is a promising direction.

arxiv情報

著者 Hsuvas Borkakoty,Luis Espinosa-Anke
発行日 2024-05-15 17:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク