ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain




– 公開情報は、サイバー脅威インテリジェンス(CTI)にとって有用な情報を含んでいる。
– CTI情報は、既に他のシステムで起こった攻撃を防止するために使用できる。
– しかし、情報を交換する標準があるにもかかわらず、多くの情報が非標準化された方法で記事やブログ投稿で共有されている。
– 複数のオンラインポータルやニュースページを手動でスキャンして新しい脅威を発見し、それらを抽出することは時間がかかる。
– このスキャンプロセスの一部を自動化するために、多くの論文がNLPを使用した抽出器を提案している。
– 本論文では、文書の抽出問題を解決する多くの論文とは異なり、これらの文書の検索についてはほとんど考慮されていない。
– 本論文では、BERTベースのモデルを使用して文書を分類し、動的にクローリングパスを適応する新しいフォーカスクローラー、ThreatCrawlが提案されている。
– ThreathCrawlは、特定のOSINTタイプ(IOCコンテンツなど)をテキストで特定するのに苦労しているが、関連する文書を正常に見つけ、パスを変更することができる。
– 最高52%の収穫率を達成し、現在の最新技術よりも優れた結果を残した。


Publicly available information contains valuable information for Cyber Threat Intelligence (CTI). This can be used to prevent attacks that have already taken place on other systems. Ideally, only the initial attack succeeds and all subsequent ones are detected and stopped. But while there are different standards to exchange this information, a lot of it is shared in articles or blog posts in non-standardized ways. Manually scanning through multiple online portals and news pages to discover new threats and extracting them is a time-consuming task. To automize parts of this scanning process, multiple papers propose extractors that use Natural Language Processing (NLP) to extract Indicators of Compromise (IOCs) from documents. However, while this already solves the problem of extracting the information out of documents, the search for these documents is rarely considered. In this paper, a new focused crawler is proposed called ThreatCrawl, which uses Bidirectional Encoder Representations from Transformers (BERT)-based models to classify documents and adapt its crawling path dynamically. While ThreatCrawl has difficulties to classify the specific type of Open Source Intelligence (OSINT) named in texts, e.g., IOC content, it can successfully find relevant documents and modify its path accordingly. It yields harvest rates of up to 52%, which are, to the best of our knowledge, better than the current state of the art.


著者 Philipp Kuehn,Mike Schmidt,Markus Bayer,Christian Reuter
発行日 2023-04-26 13:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク