Interpretable classification of wiki-review streams

要約

Wiki の記事は多数の編集者によって作成および維持され、継続的なレビューの流れが生み出されます。
レビューは追加、取り消し、またはその両方の形式を取ることができます。
このクラウドソーシング モデルは、レビューも編集者も自動的に選別され、削除されないため、操作される危険にさらされています。
記事を破壊行為や損傷から保護するために、レビューの流れをマイニングして、レビューとプロフィール編集者をリアルタイムで分類できます。
この作業の目的は、どのレビューを取り消すかを予測して説明することです。
このようにして、編集者は編集内容が取り消される理由を知ることができます。
提案された方法はストリームベースの処理を採用し、受信イベントごとにプロファイリングおよび分類モデルを更新します。
プロファイリングでは、自然言語処理を採用したサイドおよびコンテンツベースの機能が使用され、編集者のプロファイルはレビューに基づいて段階的に更新されます。
提案された方法は自明の分類アルゴリズムに依存しているため、レビューが差し戻しまたは非差し戻しとして分類された理由を理解することができます。
さらに、この研究は、クラスのバランスをとるための合成データを生成するアルゴリズムに貢献し、最終的な分類をより公平にします。
提案されたオンライン手法は、Wikivoyage の実​​際のデータセットを使用してテストされ、前述の合成データ生成を通じてバランスがとれました。
結果は、すべての評価指標 (精度、精度、再現率、および F 値) で 90 % 近くの値を達成しました。

要約(オリジナル)

Wiki articles are created and maintained by a crowd of editors, producing a continuous stream of reviews. Reviews can take the form of additions, reverts, or both. This crowdsourcing model is exposed to manipulation since neither reviews nor editors are automatically screened and purged. To protect articles against vandalism or damage, the stream of reviews can be mined to classify reviews and profile editors in real-time. The goal of this work is to anticipate and explain which reviews to revert. This way, editors are informed why their edits will be reverted. The proposed method employs stream-based processing, updating the profiling and classification models on each incoming event. The profiling uses side and content-based features employing Natural Language Processing, and editor profiles are incrementally updated based on their reviews. Since the proposed method relies on self-explainable classification algorithms, it is possible to understand why a review has been classified as a revert or a non-revert. In addition, this work contributes an algorithm for generating synthetic data for class balancing, making the final classification fairer. The proposed online method was tested with a real data set from Wikivoyage, which was balanced through the aforementioned synthetic data generation. The results attained near-90 % values for all evaluation metrics (accuracy, precision, recall, and F-measure).

arxiv情報

著者 Silvia García Méndez,Fátima Leal,Benedita Malheiro,Juan Carlos Burguillo Rial
発行日 2024-05-28 16:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク