ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain

要約

タイトル:サイバーセキュリティ領域のBERTベースのフォーカスクローラー「ThreatCrawl」

要約:
– 公開されている情報には、サイバー脅威インテリジェンス(CTI)のための重要な情報が含まれている。
– 多くの場合、記事やブログ投稿などで共有されているため、情報の標準化は進んでいない。
– 指標を抽出する自然言語処理(NLP)を使用する抽出器が提案されており、文書から情報を抽出する問題はすでに解決されているが、該当する文書を検索することはめったに考慮されていない。
– 本論文では、BERTベースのモデルを使用した新しいフォーカスクローラー「ThreatCrawl」を提案している。
– 独自のパスを適応的に分類し、検索対象のドキュメントを成功裏に見つけることができる。この方法では、最大52%のハーベスト率が実現される。

要約(オリジナル)

Publicly available information contains valuable information for Cyber Threat Intelligence (CTI). This can be used to prevent attacks that have already taken place on other systems. Ideally, only the initial attack succeeds and all subsequent ones are detected and stopped. But while there are different standards to exchange this information, a lot of it is shared in articles or blog posts in non-standardized ways. Manually scanning through multiple online portals and news pages to discover new threats and extracting them is a time-consuming task. To automize parts of this scanning process, multiple papers propose extractors that use Natural Language Processing (NLP) to extract Indicators of Compromise (IOCs) from documents. However, while this already solves the problem of extracting the information out of documents, the search for these documents is rarely considered. In this paper, a new focused crawler is proposed called ThreatCrawl, which uses Bidirectional Encoder Representations from Transformers (BERT)-based models to classify documents and adapt its crawling path dynamically. While ThreatCrawl has difficulties to classify the specific type of Open Source Intelligence (OSINT) named in texts, e.g., IOC content, it can successfully find relevant documents and modify its path accordingly. It yields harvest rates of up to 52%, which are, to the best of our knowledge, better than the current state of the art.

arxiv情報

著者 Philipp Kuehn,Mike Schmidt,Christian Reuter
発行日 2023-04-24 09:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク