LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection

要約

悪意あるアクターが誤情報を拡散し、世論を操作するために、ますます高度で広範なボットを使用するようになり、Twitterボットの検出は極めて重要な課題となっている。グラフベースのTwitterボット検出手法は最先端の性能を達成しているものの、その推論はターゲットからマルチホップ離れた近傍ユーザーに依存しており、近傍ユーザーの取得には時間がかかり、バイアスが生じる可能性があることがわかった。同時に、Twitterのボット検出を微調整した後、事前訓練された言語モデルは、競争力のあるパフォーマンスを達成し、展開時にグラフ構造を必要としないことがわかった。この知見に触発され、我々は、グラフニューラルネットワーク(GNN)の知識を言語モデル(LM)に抽出し、Twitterボット検出におけるグラフレス展開のために、データ依存性の課題に対抗する新しいボット検出フレームワークLMBotを提案する。さらに、LMBotはグラフベースのデータセットとグラフレスのデータセットに対応している。具体的には、まず各ユーザーをテキストシーケンスとして表現し、ドメイン適応のためにLMに送り込む。グラフベースのデータセットの場合、LM の出力は GNN の入力特徴量となり、GNN はボット検出のために最適化された知識を LM に戻すことができる。LM を用いることで、グラフレス推論が可能となり、グラフデータの依存性やサンプリングバイアスの問題を解決できる。グラフ構造を持たないデータセットに対しては、GNNをMLPに置き換えるだけで、MLPも強力な性能を示す。我々の実験では、LMBotが4つのTwitterボット検出ベンチマークで最先端の性能を達成したことを実証している。また、広範な研究により、LMBotは、グラフベースのTwitterボット検出手法と比較して、より堅牢で、汎用性が高く、効率的であることが示されている。

要約(オリジナル)

As malicious actors employ increasingly advanced and widespread bots to disseminate misinformation and manipulate public opinion, the detection of Twitter bots has become a crucial task. Though graph-based Twitter bot detection methods achieve state-of-the-art performance, we find that their inference depends on the neighbor users multi-hop away from the targets, and fetching neighbors is time-consuming and may introduce bias. At the same time, we find that after finetuning on Twitter bot detection, pretrained language models achieve competitive performance and do not require a graph structure during deployment. Inspired by this finding, we propose a novel bot detection framework LMBot that distills the knowledge of graph neural networks (GNNs) into language models (LMs) for graph-less deployment in Twitter bot detection to combat the challenge of data dependency. Moreover, LMBot is compatible with graph-based and graph-less datasets. Specifically, we first represent each user as a textual sequence and feed them into the LM for domain adaptation. For graph-based datasets, the output of LMs provides input features for the GNN, enabling it to optimize for bot detection and distill knowledge back to the LM in an iterative, mutually enhancing process. Armed with the LM, we can perform graph-less inference, which resolves the graph data dependency and sampling bias issues. For datasets without graph structure, we simply replace the GNN with an MLP, which has also shown strong performance. Our experiments demonstrate that LMBot achieves state-of-the-art performance on four Twitter bot detection benchmarks. Extensive studies also show that LMBot is more robust, versatile, and efficient compared to graph-based Twitter bot detection methods.

arxiv情報

著者 Zijian Cai,Zhaoxuan Tan,Zhenyu Lei,Zifeng Zhu,Hongrui Wang,Qinghua Zheng,Minnan Luo
発行日 2023-07-03 11:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.SI パーマリンク