AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports

要約

脅威の状況を監視して実際の攻撃または潜在的な攻撃を認識することは、サイバーセキュリティの専門家にとって最も重要です。
サイバー脅威に関する情報は通常、自然言語レポートを使用して配信されます。
自然言語処理は、この大量の非構造化情報の管理に役立ちますが、これまでのところ、このトピックはほとんど注目されていません。
このペーパーでは、CC-BY-SA ライセンスを取得したサイバー脅威レポートの新しいデータセットである AnnoCTR について紹介します。
レポートには、名前付きエンティティ、時間的表現、および暗黙的に言及された技術や戦術を含むサイバーセキュリティ固有の概念について、ドメインの専門家によって注釈が付けられています。
エンティティと概念は、Wikipedia と、攻撃の種類を分類するために最も広く使用されている分類法である MITRE ATT&CK ナレッジ ベースにリンクされています。
MITRE ATT&CK にリンクする以前のデータセットは、ドキュメントごとに 1 つのラベルを提供するか、文脈を無視して文に注釈を付けます。
私たちのデータセットは、よりきめ細かい方法でドキュメント全体に注釈を付けます。
実験的研究では、最先端のニューラル モデルを使用してデータセットのアノテーションをモデル化します。
数ショットのシナリオでは、テキスト内で明示的または暗黙的に言及されている MITRE ATT&CK の概念を特定する場合、MITRE ATT&CK の概念の説明がトレーニング データ拡張の効果的なソースであることがわかりました。

要約(オリジナル)

Monitoring the threat landscape to be aware of actual or potential attacks is of utmost importance to cybersecurity professionals. Information about cyber threats is typically distributed using natural language reports. Natural language processing can help with managing this large amount of unstructured information, yet to date, the topic has received little attention. With this paper, we present AnnoCTR, a new CC-BY-SA-licensed dataset of cyber threat reports. The reports have been annotated by a domain expert with named entities, temporal expressions, and cybersecurity-specific concepts including implicitly mentioned techniques and tactics. Entities and concepts are linked to Wikipedia and the MITRE ATT&CK knowledge base, the most widely-used taxonomy for classifying types of attacks. Prior datasets linking to MITRE ATT&CK either provide a single label per document or annotate sentences out-of-context; our dataset annotates entire documents in a much finer-grained way. In an experimental study, we model the annotations of our dataset using state-of-the-art neural models. In our few-shot scenario, we find that for identifying the MITRE ATT&CK concepts that are mentioned explicitly or implicitly in a text, concept descriptions from MITRE ATT&CK are an effective source for training data augmentation.

arxiv情報

著者 Lukas Lange,Marc Müller,Ghazaleh Haratinezhad Torbati,Dragan Milchevski,Patrick Grau,Subhash Pujari,Annemarie Friedrich
発行日 2024-04-11 14:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク