Language-Agnostic Modeling of Source Reliability on Wikipedia

要約

ここ数年、信頼できる情報源を通じたコンテンツの検証は、偽情報と戦うための基本的なニーズとなっています。
ここでは、ウィキペディアの複数の言語版にわたる情報源の信頼性を評価するために設計された言語に依存しないモデルを紹介します。
このモデルは、編集活動データを利用して、気候変動、新型コロナウイルス感染症、歴史、メディア、生物学のトピックなど、さまざまな物議を醸すさまざまな記事内の情報源の信頼性を評価します。
記事全体にわたるドメインの使用状況を表現する機能を作成するこのモデルは、ソースの信頼性を効果的に予測し、英語およびその他の高リソース言語で約 0.80 の F1 マクロ スコアを達成します。
中リソース言語では 0.65 を達成しますが、低リソース言語のパフォーマンスはさまざまです。
どのような場合でも、ドメインが記事内に存在し続ける時間 (これを永続性と呼んでいます) は、最も予測性の高い特徴の 1 つです。
私たちは、さまざまなリソース レベルの言語間で一貫したモデルのパフォーマンスを維持するという課題を強調し、より高リソースの言語からモデルを適応させることでパフォーマンスが向上することを実証します。
この取り組みは、コンテンツの検証可能性を確保するというウィキペディアの取り組みだけでなく、さまざまな言語コミュニティでユーザーが作成した多様なコンテンツ全体にわたる信頼性を確保するというウィキペディアの取り組みにも貢献します。

要約(オリジナル)

Over the last few years, content verification through reliable sources has become a fundamental need to combat disinformation. Here, we present a language-agnostic model designed to assess the reliability of sources across multiple language editions of Wikipedia. Utilizing editorial activity data, the model evaluates source reliability within different articles of varying controversiality such as Climate Change, COVID-19, History, Media, and Biology topics. Crafting features that express domain usage across articles, the model effectively predicts source reliability, achieving an F1 Macro score of approximately 0.80 for English and other high-resource languages. For mid-resource languages, we achieve 0.65 while the performance of low-resource languages varies; in all cases, the time the domain remains present in the articles (which we dub as permanence) is one of the most predictive features. We highlight the challenge of maintaining consistent model performance across languages of varying resource levels and demonstrate that adapting models from higher-resource languages can improve performance. This work contributes not only to Wikipedia’s efforts in ensuring content verifiability but in ensuring reliability across diverse user-generated content in various language communities.

arxiv情報

著者 Jacopo D’Ignazi,Andreas Kaltenbrunner,Yelena Mejova,Michele Tizzani,Kyriaki Kalimeri,Mariano Beiró,Pablo Aragón
発行日 2025-01-14 16:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI パーマリンク