EUREKHA: Enhancing User Representation for Key Hackers Identification in Underground Forums

要約

アンダーグラウンド フォーラムはサイバー犯罪活動のハブとして機能し、匿名性と従来のオンライン監視を回避するためのスペースを提供します。
これらの隠れたコミュニティでは、悪意のある攻撃者が協力して違法な知識、ツール、戦術を交換し、ハッキング技術から盗まれたデータの販売、マルウェア、ゼロデイ エクスプロイトに至るまで、さまざまなサイバー脅威を引き起こします。
これらの作戦の背後にある主要な扇動者 (つまり、主要なハッカー) を特定することは不可欠ですが、依然として複雑な課題が残っています。
この論文では、EUREKHA (地下フォーラムにおける重要なハッカー識別のためのユーザー表現の強化) と呼ばれる新しい方法を紹介します。この方法は、各ユーザーをテキスト シーケンスとしてモデル化することで、これらの重要なハッカーを識別するように設計されています。
このシーケンスは、ドメイン固有の適応のために大規模言語モデル (LLM) を通じて処理され、LLM は特徴抽出器として機能します。
これらの抽出された特徴は、ユーザーの構造的関係をモデル化するためにグラフ ニューラル ネットワーク (GNN) に供給され、識別精度が大幅に向上します。
さらに、BERTopic (Transformers Topic Modeling の双方向エンコーダー表現) を採用してユーザー生成コンテンツからパーソナライズされたトピックを抽出し、ユーザーごとに複数のテキスト表現を可能にし、最も代表的なシーケンスの選択を最適化します。
私たちの研究は、微調整された LLM が主要なハッカーを特定する際に最先端の方法よりも優れていることを示しています。
さらに、GNN と組み合わせると、モデルは大幅な改善を達成し、既存の手法と比較して、精度と F1 スコアがそれぞれ約 6% および 10% 向上しました。
EUREKHA は Hack-Forums データセットでテストされており、コードへのオープンソース アクセスを提供しています。

要約(オリジナル)

Underground forums serve as hubs for cybercriminal activities, offering a space for anonymity and evasion of conventional online oversight. In these hidden communities, malicious actors collaborate to exchange illicit knowledge, tools, and tactics, driving a range of cyber threats from hacking techniques to the sale of stolen data, malware, and zero-day exploits. Identifying the key instigators (i.e., key hackers), behind these operations is essential but remains a complex challenge. This paper presents a novel method called EUREKHA (Enhancing User Representation for Key Hacker Identification in Underground Forums), designed to identify these key hackers by modeling each user as a textual sequence. This sequence is processed through a large language model (LLM) for domain-specific adaptation, with LLMs acting as feature extractors. These extracted features are then fed into a Graph Neural Network (GNN) to model user structural relationships, significantly improving identification accuracy. Furthermore, we employ BERTopic (Bidirectional Encoder Representations from Transformers Topic Modeling) to extract personalized topics from user-generated content, enabling multiple textual representations per user and optimizing the selection of the most representative sequence. Our study demonstrates that fine-tuned LLMs outperform state-of-the-art methods in identifying key hackers. Additionally, when combined with GNNs, our model achieves significant improvements, resulting in approximately 6% and 10% increases in accuracy and F1-score, respectively, over existing methods. EUREKHA was tested on the Hack-Forums dataset, and we provide open-source access to our code.

arxiv情報

著者 Abdoul Nasser Hassane Amadou,Anas Motii,Saida Elouardi,EL Houcine Bergou
発行日 2024-11-08 11:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.SI パーマリンク