LLMs Perform Poorly at Concept Extraction in Cyber-security Research Literature

要約

サイバーセキュリティの状況は急速に進化しており、組織に脅威をもたらしています。
回復力を強化するには、その分野の最新の開発と傾向を追跡する必要があります。
このような急速に進化する領域では、標準的な書誌学的アプローチが限界を示していることが実証されています。
この目的のために、当社は大規模言語モデル (LLM) を使用して、サイバーセキュリティ関連のテキストから関連する知識エンティティを抽出します。
私たちはサイバーセキュリティに関する arXiv プレプリントのサブセットをデータとして使用し、エンティティ認識 (ER) と関連性の観点からさまざまな LLM を比較します。
この結果は、LLM がサイバーセキュリティのコンテキストを反映する適切な知識エンティティを生成しないことを示唆していますが、私たちの結果は、名詞抽出プログラムとしての可能性を示しています。
このため、ドメインから特定の関連する複合名詞を抽出するために、いくつかの統計分析を強化した名詞抽出ツールを開発しました。
その後、LLM ドメインの傾向を特定するためにモデルをテストしました。
いくつかの制限が観察されていますが、新たなトレンドの進化を監視する上で有望な結果が得られます。

要約(オリジナル)

The cybersecurity landscape evolves rapidly and poses threats to organizations. To enhance resilience, one needs to track the latest developments and trends in the domain. It has been demonstrated that standard bibliometrics approaches show their limits in such a fast-evolving domain. For this purpose, we use large language models (LLMs) to extract relevant knowledge entities from cybersecurity-related texts. We use a subset of arXiv preprints on cybersecurity as our data and compare different LLMs in terms of entity recognition (ER) and relevance. The results suggest that LLMs do not produce good knowledge entities that reflect the cybersecurity context, but our results show some potential for noun extractors. For this reason, we developed a noun extractor boosted with some statistical analysis to extract specific and relevant compound nouns from the domain. Later, we tested our model to identify trends in the LLM domain. We observe some limitations, but it offers promising results to monitor the evolution of emergent trends.

arxiv情報

著者 Maxime Würsch,Andrei Kucharavy,Dimitri Percia David,Alain Mermoud
発行日 2023-12-12 09:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク