MGTAB: A Multi-Relational Graph-Based Twitter Account Detection Benchmark

要約

ソーシャルメディアのユーザースタンス検出やボット検出手法の開発は、大規模かつ高品質なベンチマークに大きく依存している。しかし、アノテーションの質が低いことに加え、既存のベンチマークは一般的にユーザーとの関係が不完全であり、グラフベースのアカウント検出の研究を抑制しています。これらの問題を解決するために、我々は、アカウント検出のための最初の標準化されたグラフベースのベンチマークである、多関係グラフベースのTwitterアカウント検出ベンチマーク(MGTAB)を提案します。我々の知る限り、MGTABは155万人以上のユーザーと1億3000万件のツイートを持つ、この分野で最大のオリジナルデータに基づいて構築されています。MGTABには専門家がアノテーションした10,199人のユーザーと7種類の人間関係が含まれており、高品質のアノテーションと多様な人間関係を保証しています。MGTABでは、ユーザー特徴量として、情報量が最も多い20個のユーザー特性特徴量とユーザーのツイート特徴量を抽出しています。さらに、MGTABと他の公開データセットを用いて、徹底的な評価を行いました。実験の結果、グラフベースのアプローチは、特徴ベースのアプローチよりも一般的に有効であり、複数の関係を導入した場合に高いパフォーマンスを発揮することがわかりました。実験結果を分析することで、アカウント検知に有効なアプローチを特定し、この分野における今後の研究の方向性を示すことができました。我々のベンチマークと標準化された評価手順は、https://github.com/GraphDetec/MGTAB で自由に利用可能である。

要約(オリジナル)

The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.

arxiv情報

著者 Shuhao Shi,Kai Qiao,Jian Chen,Shuai Yang,Jie Yang,Baojie Song,Linyuan Wang,Bin Yan
発行日 2023-01-03 14:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク