CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models

要約

セキュリティ記事やニュースなどのサイバー脅威インテリジェンス(CTI)レポートのテキストの説明は、サイバーの脅威に関する豊富な知識源であり、組織が急速に進化する脅威の状況について情報を提供するために重要です。
ただし、現在のCTI知識抽出方法には、柔軟性と一般化可能性がなく、しばしば不正確で不完全な知識抽出をもたらします。
構文解析は固定ルールと辞書に依存していますが、モデルの微調整には大きな注釈付きデータセットが必要であり、両方のパラダイムが新しい脅威やオントロジーに適応するように挑戦します。
ギャップを埋めるために、データ効率の高いCTI知識抽出と高品質のサイバーセキュリティ知識グラフ(CSKG)構造のための大規模な言語モデル(LLMS)の最適化内学習(ICL)を活用する新しいフレームワークであるCtinexusを提案します。
既存の方法とは異なり、Ctinexusは広範なデータもパラメーターチューニングも必要ありません。また、最小限の注釈付き例を使用して、さまざまなオントロジーに適応できます。
これは、次のことを通じて達成されます。(1)幅広いサイバーセキュリティエンティティと関係を抽出するための最適なデモンストレーションを備えた慎重に設計された自動迅速な構築戦略。
(2)抽出された知識を正規化し、冗長性を削除する階層エンティティアラインメント手法。
(3)リンクを欠落してCSKGをさらに完了するための長距離関係予測手法。
10のプラットフォームから収集された150の実際のCTIレポートを使用した当社の広範な評価は、CTinexusが正確で完全なCSKGを構築する際に既存の方法を大幅に上回り、動的な脅威界の効率的で適応性のあるソリューションでCTI分析を変換する可能性を強調することを示しています。

要約(オリジナル)

Textual descriptions in cyber threat intelligence (CTI) reports, such as security articles and news, are rich sources of knowledge about cyber threats, crucial for organizations to stay informed about the rapidly evolving threat landscape. However, current CTI knowledge extraction methods lack flexibility and generalizability, often resulting in inaccurate and incomplete knowledge extraction. Syntax parsing relies on fixed rules and dictionaries, while model fine-tuning requires large annotated datasets, making both paradigms challenging to adapt to new threats and ontologies. To bridge the gap, we propose CTINexus, a novel framework leveraging optimized in-context learning (ICL) of large language models (LLMs) for data-efficient CTI knowledge extraction and high-quality cybersecurity knowledge graph (CSKG) construction. Unlike existing methods, CTINexus requires neither extensive data nor parameter tuning and can adapt to various ontologies with minimal annotated examples. This is achieved through: (1) a carefully designed automatic prompt construction strategy with optimal demonstration retrieval for extracting a wide range of cybersecurity entities and relations; (2) a hierarchical entity alignment technique that canonicalizes the extracted knowledge and removes redundancy; (3) an long-distance relation prediction technique to further complete the CSKG with missing links. Our extensive evaluations using 150 real-world CTI reports collected from 10 platforms demonstrate that CTINexus significantly outperforms existing methods in constructing accurate and complete CSKG, highlighting its potential to transform CTI analysis with an efficient and adaptable solution for the dynamic threat landscape.

arxiv情報

著者 Yutong Cheng,Osama Bajaber,Saimon Amanuel Tsegai,Dawn Song,Peng Gao
発行日 2025-04-21 14:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク