要約
Twitter は最も人気のあるソーシャル ネットワークの 1 つであり、コミュニケーションとオンラインでの議論の手段を提供していますが、残念ながらボットや偽アカウントの標的となり、虚偽の情報の操作や拡散につながっています。
この目的に向けて、ボット アカウントとボット アカウントが関与する会話を検出するために、最近のロシア-ウクライナ戦争に関する 900 万人のユーザーから発信された、Twitter 上の社会的言説に関する困難な多言語データセットを収集します。
当社は、Twitter API の停止アカウント収集を通じて、約 343,000 のボット アカウントと 800 万の通常ユーザーを含むデータセットのグラウンド トゥルースを収集します。
さらに、Botometer-V3 によって提供される、1,777 の Varol、483 のドイツのアカウント、1,321 の米国のアカウントを含むデータセットを使用します。
公開されているデータセットに加えて、2022 年のエネルギー危機と 2022 年の陰謀論議に関する人気の議論トピックに関する 2 つの独立したデータセットも収集することができました。
どちらのデータセットも、Twitter の一時停止メカニズムに従ってラベルが付けられました。
最先端の XGBoost モデルを使用して、ボット検出のための新しい ML モデルを構築します。
Twitter の停止メカニズムのグラウンド トゥルースに従って、このモデルと大量のラベル付きツイートを組み合わせます。
これには、Twitter API から独立しているため、コレクションとは異なる期間のデータセットのラベル付けを可能にする、限られたプロファイル機能のセットが必要です。
Botometer と比較して、私たちの方法論は 2 つの実際のシナリオ データセットで平均 11% 高い ROC-AUC スコアを達成しました。
要約(オリジナル)
Twitter as one of the most popular social networks, offers a means for communication and online discourse, which unfortunately has been the target of bots and fake accounts, leading to the manipulation and spreading of false information. Towards this end, we gather a challenging, multilingual dataset of social discourse on Twitter, originating from 9M users regarding the recent Russo-Ukrainian war, in order to detect the bot accounts and the conversation involving them. We collect the ground truth for our dataset through the Twitter API suspended accounts collection, containing approximately 343K of bot accounts and 8M of normal users. Additionally, we use a dataset provided by Botometer-V3 with 1,777 Varol, 483 German accounts, and 1,321 US accounts. Besides the publicly available datasets, we also manage to collect 2 independent datasets around popular discussion topics of the 2022 energy crisis and the 2022 conspiracy discussions. Both of the datasets were labeled according to the Twitter suspension mechanism. We build a novel ML model for bot detection using the state-of-the-art XGBoost model. We combine the model with a high volume of labeled tweets according to the Twitter suspension mechanism ground truth. This requires a limited set of profile features allowing labeling of the dataset in different time periods from the collection, as it is independent of the Twitter API. In comparison with Botometer our methodology achieves an average 11% higher ROC-AUC score over two real-case scenario datasets.
arxiv情報
著者 | Alexander Shevtsov,Despoina Antonakaki,Ioannis Lamprou,Polyvios Pratikakis,Sotiris Ioannidis |
発行日 | 2023-12-29 13:23:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google