CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity

要約

セキュリティ記事やニュースなどのサイバー脅威インテリジェンス (CTI) レポートのテキスト説明は、サイバー脅威に関する豊富な知識の情報源であり、組織が急速に進化する脅威の状況について最新の情報を入手し続けるために不可欠です。
しかし、現在の CTI 抽出方法には柔軟性と汎用性が欠けており、多くの場合、不正確で不完全な知識抽出が行われます。
構文解析は固定ルールと辞書に依存しますが、モデルの微調整には大規模な注釈付きデータセットが必要となるため、どちらのパラダイムも新しい脅威やオントロジーに適応することが困難になります。
このギャップを埋めるために、私たちは、データ効率の高い CTI ナレッジ抽出と高品質のサイバーセキュリティ ナレッジ グラフ (CSKG) 構築のための大規模言語モデル (LLM) の最適化されたインコンテキスト学習 (ICL) を活用する新しいフレームワークである CTINexus を提案します。
既存の方法とは異なり、CTINexus は大規模なデータやパラメーター調整を必要とせず、最小限の注釈付きサンプルでさまざまなオントロジーに適応できます。
これは、(1) 広範囲のサイバーセキュリティエンティティと関係を抽出するための最適なデモンストレーション検索を備えた、慎重に設計された自動プロンプト構築戦略によって達成されます。
(2) 抽出された知識を正規化し、冗長性を除去する階層的エンティティ調整技術。
(3) ミッシングリンクを含む CKSG をさらに完成させるための ICL 拡張長距離関係予測技術。
10 のプラットフォームから収集した 150 件の実際の CTI レポートを使用した広範な評価では、CTINexus が正確かつ完全な CSKG の構築において既存の手法を大幅に上回っていることが実証され、動的な脅威状況に合わせた効率的で適応性のあるソリューションで CTI 分析を変革する可能性が強調されています。

要約(オリジナル)

Textual descriptions in cyber threat intelligence (CTI) reports, such as security articles and news, are rich sources of knowledge about cyber threats, crucial for organizations to stay informed about the rapidly evolving threat landscape. However, current CTI extraction methods lack flexibility and generalizability, often resulting in inaccurate and incomplete knowledge extraction. Syntax parsing relies on fixed rules and dictionaries, while model fine-tuning requires large annotated datasets, making both paradigms challenging to adapt to new threats and ontologies. To bridge the gap, we propose CTINexus, a novel framework leveraging optimized in-context learning (ICL) of large language models (LLMs) for data-efficient CTI knowledge extraction and high-quality cybersecurity knowledge graph (CSKG) construction. Unlike existing methods, CTINexus requires neither extensive data nor parameter tuning and can adapt to various ontologies with minimal annotated examples. This is achieved through (1) a carefully designed automatic prompt construction strategy with optimal demonstration retrieval for extracting a wide range of cybersecurity entities and relations; (2) a hierarchical entity alignment technique that canonicalizes the extracted knowledge and removes redundancy; (3) an ICL-enhanced long-distance relation prediction technique to further complete the CKSG with missing links. Our extensive evaluations using 150 real-world CTI reports collected from 10 platforms demonstrate that CTINexus significantly outperforms existing methods in constructing accurate and complete CSKGs, highlighting its potential to transform CTI analysis with an efficient and adaptable solution for the dynamic threat landscape.

arxiv情報

著者 Yutong Cheng,Osama Bajaber,Saimon Amanuel Tsegai,Dawn Song,Peng Gao
発行日 2024-10-28 14:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク