Fair multilingual vandalism detection system for Wikipedia

要約

本論文では、Wikipediaコミュニティがプラットフォーム上の荒らし行為に対処するのを支援することを目的としたシステムの新規設計を紹介する。これを実現するために、47言語の膨大なデータセットを収集し、多言語マスク言語モデリングを含む高度なフィルタリングと特徴工学技術を適用して、人間が生成したデータからトレーニングデータセットを構築した。システムの性能は、ORESとして知られるWikipediaで実運用されているものとの比較を通じて評価された。我々の研究の結果、カバーする言語数が大幅に増加し、より幅広いコミュニティに対してWikipediaのパトロールを効率化することができました。さらに、我々のモデルはORESを凌駕し、提供される結果がより正確であるだけでなく、特定のグループの投稿者に対する偏りが少ないことを保証しています。

要約(オリジナル)

This paper presents a novel design of the system aimed at supporting the Wikipedia community in addressing vandalism on the platform. To achieve this, we collected a massive dataset of 47 languages, and applied advanced filtering and feature engineering techniques, including multilingual masked language modeling to build the training dataset from human-generated data. The performance of the system was evaluated through comparison with the one used in production in Wikipedia, known as ORES. Our research results in a significant increase in the number of languages covered, making Wikipedia patrolling more efficient to a wider range of communities. Furthermore, our model outperforms ORES, ensuring that the results provided are not only more accurate but also less biased against certain groups of contributors.

arxiv情報

著者 Mykola Trokhymovych,Muniza Aslam,Ai-Jou Chou,Ricardo Baeza-Yates,Diego Saez-Trumper
発行日 2023-06-02 16:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク