Multimodal Detection of Social Spambots in Twitter using Transformers

要約

すべてのボットが悪意のあるわけではありませんが、その大部分は誤った情報を広め、いくつかの問題 (選挙など) に関する世論を操作する役割を果たしています。
したがって、ソーシャル スパムボットを早期に検出することが重要です。
ソーシャルメディアでボットを検出する方法が提案されていますが、依然として大きな制限があります。
たとえば、既存の研究イニシアチブでは、依然として多数の特徴を抽出して従来の機械学習アルゴリズムをトレーニングしたり、GloVe エンベディングを使用して LSTM をトレーニングしたりしています。
ただし、特徴抽出は、その分野の専門知識が必要な退屈な手順です。
また、トランスフォーマーに基づく言語モデルは LSTM よりも優れていることが証明されています。
他のアプローチでは、大きなグラフを作成し、グラフ ニューラル ネットワークをトレーニングします。この方法では、トレーニングと計算リソースへのアクセスに多くの時間を必要とします。
これらの制限に対処するために、これは、ユーザーの説明フィールドと、ユーザーが投稿したツイートの種類と内容を示す 3 つのチャネルの画像のみを使用した最初の研究です。
まず、デジタル DNA シーケンスを作成し、3D 画像に変換し、EfficientNet、AlexNet、VGG16 などを含む視覚領域の事前学習済みモデルを適用します。次に、テキスト情報を取得するために TwHIN-BERT を使用するマルチモーダル アプローチを提案します。
ユーザー説明フィールドの表現を作成し、画像モダリティの視覚表現を取得するために VGG16 を使用します。
我々は、異なるモダリティを融合するために、連結、ゲートマルチモーダルユニット、およびクロスモーダルアテンションという3つの異なる融合方法を提案し、それらのパフォーマンスを比較します。
Cresci ’17 データセットに対して行われた広範な実験により、精度が最大 99.98% に達する、最先端のアプローチと比較して、導入されたアプローチの貴重な利点が実証されました。

要約(オリジナル)

Although not all bots are malicious, the vast majority of them are responsible for spreading misinformation and manipulating the public opinion about several issues, i.e., elections and many more. Therefore, the early detection of social spambots is crucial. Although there have been proposed methods for detecting bots in social media, there are still substantial limitations. For instance, existing research initiatives still extract a large number of features and train traditional machine learning algorithms or use GloVe embeddings and train LSTMs. However, feature extraction is a tedious procedure demanding domain expertise. Also, language models based on transformers have been proved to be better than LSTMs. Other approaches create large graphs and train graph neural networks requiring in this way many hours for training and access to computational resources. To tackle these limitations, this is the first study employing only the user description field and images of three channels denoting the type and content of tweets posted by the users. Firstly, we create digital DNA sequences, transform them to 3d images, and apply pretrained models of the vision domain, including EfficientNet, AlexNet, VGG16, etc. Next, we propose a multimodal approach, where we use TwHIN-BERT for getting the textual representation of the user description field and employ VGG16 for acquiring the visual representation for the image modality. We propose three different fusion methods, namely concatenation, gated multimodal unit, and crossmodal attention, for fusing the different modalities and compare their performances. Extensive experiments conducted on the Cresci ’17 dataset demonstrate valuable advantages of our introduced approaches over state-of-the-art ones reaching Accuracy up to 99.98%.

arxiv情報

著者 Loukas Ilias,Ioannis Michail Kazelidis,Dimitris Askounis
発行日 2023-08-28 10:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク