LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection

要約

悪意のある攻撃者が、誤った情報を広めたり世論を操作したりするために、ますます高度かつ広範囲に使用されるボットを使用するようになっているため、Twitter ボットの検出は重要なタスクとなっています。
グラフベースの Twitter ボット検出方法は最先端のパフォーマンスを実現しますが、その推論はターゲットからマルチホップ離れた近隣ユーザーに依存しており、近隣ユーザーの取得には時間がかかり、バイアスが生じる可能性があることがわかりました。
同時に、Twitter ボット検出を微調整した後、事前トレーニングされた言語モデルは競争力のあるパフォーマンスを達成し、展開中にグラフ構造を必要としないことがわかりました。
この発見に触発されて、私たちは、グラフ ニューラル ネットワーク (GNN) の知識を言語モデル (LM) に抽出し、データ依存性の課題に対処するための Twitter ボット検出におけるグラフレス展開のための新しいボット検出フレームワーク LMBot を提案します。
さらに、LMBot はグラフベースおよびグラフのないデータセットと互換性があります。
具体的には、まず各ユーザーをテキストシーケンスとして表し、それをドメイン適応のために LM にフィードします。
グラフベースのデータセットの場合、LM の出力は GNN の入力特徴を提供し、ボット検出を最適化し、相互に強化する反復プロセスで知識を LM に抽出できるようにします。
LM を使用すると、グラフレス推論を実行できるため、グラフ データの依存関係とサンプリング バイアスの問題が解決されます。
グラフ構造のないデータセットの場合は、単純に GNN を MLP に置き換えます。これも優れたパフォーマンスを示しています。
私たちの実験では、LMBot が 4 つの Twitter ボット検出ベンチマークで最先端のパフォーマンスを達成していることが実証されました。
広範な調査により、LMBot はグラフベースの Twitter ボット検出方法と比較して、より堅牢で、多用途で、効率的であることも示されています。

要約(オリジナル)

As malicious actors employ increasingly advanced and widespread bots to disseminate misinformation and manipulate public opinion, the detection of Twitter bots has become a crucial task. Though graph-based Twitter bot detection methods achieve state-of-the-art performance, we find that their inference depends on the neighbor users multi-hop away from the targets, and fetching neighbors is time-consuming and may introduce bias. At the same time, we find that after finetuning on Twitter bot detection, pretrained language models achieve competitive performance and do not require a graph structure during deployment. Inspired by this finding, we propose a novel bot detection framework LMBot that distills the knowledge of graph neural networks (GNNs) into language models (LMs) for graph-less deployment in Twitter bot detection to combat the challenge of data dependency. Moreover, LMBot is compatible with graph-based and graph-less datasets. Specifically, we first represent each user as a textual sequence and feed them into the LM for domain adaptation. For graph-based datasets, the output of LMs provides input features for the GNN, enabling it to optimize for bot detection and distill knowledge back to the LM in an iterative, mutually enhancing process. Armed with the LM, we can perform graph-less inference, which resolves the graph data dependency and sampling bias issues. For datasets without graph structure, we simply replace the GNN with an MLP, which has also shown strong performance. Our experiments demonstrate that LMBot achieves state-of-the-art performance on four Twitter bot detection benchmarks. Extensive studies also show that LMBot is more robust, versatile, and efficient compared to graph-based Twitter bot detection methods.

arxiv情報

著者 Zijian Cai,Zhaoxuan Tan,Zhenyu Lei,Hongrui Wang,Zifeng Zhu,Qinghua Zheng,Minnan Luo
発行日 2023-06-30 05:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SI パーマリンク