Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset

要約

デマは意図的に作成された偽情報の一種として認識されており、Wikipedia などの参考知識リソースの信頼性に重​​大な影響を与える可能性があります。
Wikipedia のデマを見分けるのが難しいのは、そのデマが公式のスタイル ガイドラインに従って書かれていることが多いためです。
この研究では、まず、正規の Wikipedia 記事とデマの Wikipedia 記事の間の類似点と不一致の体系的な分析を提供し、(既存の文献と公式の Wikipedia リストからの) 311 のデマ記事のコレクションである Hoaxpedia を、意味的に類似した正規の記事とともに紹介します。
自動デマ検出の研究を促進することを目的としたバイナリ テキスト分類データセットを形成します。
この論文では、いくつかの言語モデル、デマと正規の比率、および露出されるテキスト分類子の量 (記事全体と記事の定義のみ) を分析した結果を報告します。
私たちの結果は、コンテンツのみに基づいてウィキペディア内の虚偽のコンテンツを検出することは困難だが実現可能であることを示唆しており、編集履歴の分布の違いに関する研究で私たちの分析を補完し、この特徴を調べることでコンテキストよりも優れた分類結果が得られることがわかりました。

要約(オリジナル)

Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 hoax articles (from existing literature and official Wikipedia lists), together with semantically similar legitimate articles, which together form a binary text classification dataset aimed at fostering research in automated hoax detection. In this paper, We report results after analyzing several language models, hoax-to-legit ratios, and the amount of text classifiers are exposed to (full article vs the article’s definition alone). Our results suggest that detecting deceitful content in Wikipedia based on content alone is hard but feasible, and complement our analysis with a study on the differences in distributions in edit histories, and find that looking at this feature yields better classification results than context.

arxiv情報

著者 Hsuvas Borkakoty,Luis Espinosa-Anke
発行日 2024-08-30 16:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク