要約
Twitterは最も人気のあるソーシャルネットワークの1つであり、コミュニケーションやオンライン言説の手段を提供していますが、残念ながらボットや偽アカウントの標的となり、誤った情報の操作や拡散を招くことがあります。この目的のために、我々は、ボットアカウントとそれに関わる会話を検出するために、最近のロシアとウクライナの戦争に関する9Mのユーザーから発信されたTwitter上の社会的談話の難しい多言語データセットを収集する。本データセットのグランドトゥルースは、Twitter APIのsuspended accounts collectionを通じて収集し、約343Kのボットアカウントと8Mの通常ユーザーを含む。さらに、Botometer-V3が提供する1,777のVarol、483のドイツ人アカウント、1,321の米国人アカウントのデータセットも使用する。公開されているデータセット以外に、2022年エネルギー危機と2022年陰謀論という人気のある議論トピックに関する2つの独立したデータセットも収集することに成功した。どちらのデータセットも、Twitterの停止メカニズムに従ってラベル付けされたものである。我々は、最先端のXGBoostモデルを用いて、ボット検出のための新しいMLモデルを構築した。このモデルと、Twitterの停止メカニズムのグランドトゥルースに従ってラベル付けされた大量のツイートとを結合する。これは、Twitter APIに依存しないため、収集から異なる期間でのデータセットのラベリングを可能にする、限られたプロファイルの特徴セットを必要とする。Botometerと比較して、我々の手法は、2つの実事例シナリオのデータセットにおいて、平均11%高いROC-AUCスコアを達成した。
要約(オリジナル)
Twitter as one of the most popular social networks, offers a means for communication and online discourse, which unfortunately has been the target of bots and fake accounts, leading to the manipulation and spreading of false information. Towards this end, we gather a challenging, multilingual dataset of social discourse on Twitter, originating from 9M users regarding the recent Russo-Ukrainian war, in order to detect the bot accounts and the conversation involving them. We collect the ground truth for our dataset through the Twitter API suspended accounts collection, containing approximately 343K of bot accounts and 8M of normal users. Additionally, we use a dataset provided by Botometer-V3 with 1,777 Varol, 483 German accounts, and 1,321 US accounts. Besides the publicly available datasets, we also manage to collect 2 independent datasets around popular discussion topics of the 2022 energy crisis and the 2022 conspiracy discussions. Both of the datasets were labeled according to the Twitter suspension mechanism. We build a novel ML model for bot detection using the state-of-the-art XGBoost model. We combine the model with a high volume of labeled tweets according to the Twitter suspension mechanism ground truth. This requires a limited set of profile features allowing labeling of the dataset in different time periods from the collection, as it is independent of the Twitter API. In comparison with Botometer our methodology achieves an average 11% higher ROC-AUC score over two real-case scenario datasets.
arxiv情報
著者 | Alexander Shevtsov,Despoina Antonakaki,Ioannis Lamprou,Polyvios Pratikakis,Sotiris Ioannidis |
発行日 | 2023-06-02 11:15:02+00:00 |
arxivサイト | arxiv_id(pdf) |