Multimodal Detection of Bots on X (Twitter) using Transformers

要約

すべてのボットが悪意のあるわけではありませんが、その大部分は誤った情報を広め、いくつかの問題 (選挙など) に関する世論を操作する役割を果たしています。
したがって、ボットを早期に検出することが重要です。
ソーシャルメディアでボットを検出する方法が提案されていますが、依然として大きな制限があります。
たとえば、既存の研究イニシアチブでは、依然として多数の特徴を抽出して従来の機械学習アルゴリズムをトレーニングしたり、GloVe エンベディングを使用して LSTM をトレーニングしたりしています。
ただし、特徴抽出は、その分野の専門知識が必要な退屈な手順です。
また、トランスフォーマーに基づく言語モデルは LSTM よりも優れていることが証明されています。
他のアプローチでは、大きなグラフを作成し、グラフ ニューラル ネットワークをトレーニングします。この方法では、トレーニングと計算リソースへのアクセスに多くの時間を必要とします。
これらの制限に対処するために、これは、ユーザーの説明フィールドと、ユーザーが投稿したツイートの種類と内容を示す 3 つのチャネルの画像のみを使用した最初の研究です。
まず、デジタル DNA シーケンスを作成し、3D 画像に変換し、EfficientNet、AlexNet、VGG16 などを含む視覚領域の事前学習済みモデルを適用します。次に、テキスト情報を取得するために TwHIN-BERT を使用するマルチモーダル アプローチを提案します。
ユーザー説明フィールドの表現を作成し、画像モダリティの視覚表現を取得するために VGG16 を使用します。
我々は、異なるモダリティを融合するために、連結、ゲートマルチモーダルユニット、およびクロスモーダルアテンションという3つの異なる融合方法を提案し、それらのパフォーマンスを比較します。
最後に、最もパフォーマンスの高いモデルの動作の定性分析を示します。
Cresci’17 および TwiBot-20 データセットに対して行われた広範な実験により、最先端のアプローチに対する当社の導入アプローチの貴重な利点が実証されました。

要約(オリジナル)

Although not all bots are malicious, the vast majority of them are responsible for spreading misinformation and manipulating the public opinion about several issues, i.e., elections and many more. Therefore, the early detection of bots is crucial. Although there have been proposed methods for detecting bots in social media, there are still substantial limitations. For instance, existing research initiatives still extract a large number of features and train traditional machine learning algorithms or use GloVe embeddings and train LSTMs. However, feature extraction is a tedious procedure demanding domain expertise. Also, language models based on transformers have been proved to be better than LSTMs. Other approaches create large graphs and train graph neural networks requiring in this way many hours for training and access to computational resources. To tackle these limitations, this is the first study employing only the user description field and images of three channels denoting the type and content of tweets posted by the users. Firstly, we create digital DNA sequences, transform them to 3d images, and apply pretrained models of the vision domain, including EfficientNet, AlexNet, VGG16, etc. Next, we propose a multimodal approach, where we use TwHIN-BERT for getting the textual representation of the user description field and employ VGG16 for acquiring the visual representation for the image modality. We propose three different fusion methods, namely concatenation, gated multimodal unit, and crossmodal attention, for fusing the different modalities and compare their performances. Finally, we present a qualitative analysis of the behavior of our best performing model. Extensive experiments conducted on the Cresci’17 and TwiBot-20 datasets demonstrate valuable advantages of our introduced approaches over state-of-the-art ones.

arxiv情報

著者 Loukas Ilias,Ioannis Michail Kazelidis,Dimitris Askounis
発行日 2024-07-24 08:24:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク