Cyber-Security Knowledge Graph Generation by Hierarchical Nonnegative Matrix Factorization


このテキスト データが拡大し続けるにつれて、大規模なテキスト データセット内に隠された実用的な洞察を抽出するために、ドキュメントの整理方法の重要性がますます高まっています。
ナレッジ グラフ (KG) は、事実情報を構造化して保存する手段として機能し、サイバーセキュリティ科学文献からのドメイン固有の情報を含む、明示的で解釈可能な知識を提供します。
科学文献から KG を構築する際の課題の 1 つは、非構造化テキストからオントロジーを抽出することです。
この論文では、このトピックに取り組み、科学論文から構造化オントロジーを抽出することによってマルチモーダル KG を構築する方法を紹介します。
KG の 1 つのモダリティは、論文が掲載されたカテゴリーや著者など、論文から得られる観察可能な情報を表します。
2 番目のモダリティでは、名前付きエンティティ、トピックまたはクラスター、キーワードなど、階層的および意味論的な非負行列因数分解 (NMF) を通じて抽出されたテキストの潜在的な (隠れた) パターンを明らかにします。
私たちは、階層的でセマンティックな NMF を使用して、arXiv にアップロードされた 200 万件を超える科学論文をサイバー ドメインに統合し、サイバー ドメイン固有の KG を構築することで、この概念を説明します。


Much of human knowledge in cybersecurity is encapsulated within the ever-growing volume of scientific papers. As this textual data continues to expand, the importance of document organization methods becomes increasingly crucial for extracting actionable insights hidden within large text datasets. Knowledge Graphs (KGs) serve as a means to store factual information in a structured manner, providing explicit, interpretable knowledge that includes domain-specific information from the cybersecurity scientific literature. One of the challenges in constructing a KG from scientific literature is the extraction of ontology from unstructured text. In this paper, we address this topic and introduce a method for building a multi-modal KG by extracting structured ontology from scientific papers. We demonstrate this concept in the cybersecurity domain. One modality of the KG represents observable information from the papers, such as the categories in which they were published or the authors. The second modality uncovers latent (hidden) patterns of text extracted through hierarchical and semantic non-negative matrix factorization (NMF), such as named entities, topics or clusters, and keywords. We illustrate this concept by consolidating more than two million scientific papers uploaded to arXiv into the cyber-domain, using hierarchical and semantic NMF, and by building a cyber-domain-specific KG.


著者 Ryan Barron,Maksim E. Eren,Manish Bhattarai,Selma Wanna,Nicholas Solovyev,Kim Rasmussen,Boian S. Alexandrov,Charles Nicholas,Cynthia Matuszek
発行日 2024-03-26 15:28:27+00:00
