Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness

要約

新たな脅威に関する知識の共有は、急速に進歩するサイバーセキュリティ分野において極めて重要であり、サイバー脅威インテリジェンス (CTI) の基盤を形成します。
この文脈において、大規模言語モデルはサイバーセキュリティの分野でますます重要性を増しており、幅広い機会をもたらしています。
この調査では、Open Source INTelligence (OSINT) を使用して実行されるバイナリ分類および固有表現認識 (NER) タスクにおける ChatGPT、GPT4all、Dolly、Stanford Alpaca、Alpaca-LoRA、Falcon、および Vicuna チャットボットのパフォーマンスを調査します。
Twitter からの以前の研究で収集された十分に確立されたデータを利用して、これらのタスク用にトレーニングされた特殊なモデルと比較した場合のチャットボットの競争力を評価します。
バイナリ分類実験では、商用モデルのチャットボット GPT-4 は許容可能な F1 スコア 0.94 を達成し、オープンソース GPT4all モデルは F1 スコア 0.90 を達成しました。
ただし、サイバーセキュリティエンティティの認識に関しては、評価されたすべてのチャットボットには制限があり、効果が低くなります。
この研究は、OSINT バイナリ分類に対するチャットボットの機能を実証し、特別にトレーニングされたモデルを効果的に置き換えるためには NER のさらなる改善が必要であることを示しています。
私たちの結果は、特殊なモデルと比較した場合の LLM チャットボットの限界を明らかにし、研究者が OSINT ベースの CTI ツールに機械学習を統合するために必要な労力を削減することを目的としてチャットボット テクノロジーを改善するのに役立ちます。

要約(オリジナル)

Knowledge sharing about emerging threats is crucial in the rapidly advancing field of cybersecurity and forms the foundation of Cyber Threat Intelligence (CTI). In this context, Large Language Models are becoming increasingly significant in the field of cybersecurity, presenting a wide range of opportunities. This study surveys the performance of ChatGPT, GPT4all, Dolly, Stanford Alpaca, Alpaca-LoRA, Falcon, and Vicuna chatbots in binary classification and Named Entity Recognition (NER) tasks performed using Open Source INTelligence (OSINT). We utilize well-established data collected in previous research from Twitter to assess the competitiveness of these chatbots when compared to specialized models trained for those tasks. In binary classification experiments, Chatbot GPT-4 as a commercial model achieved an acceptable F1 score of 0.94, and the open-source GPT4all model achieved an F1 score of 0.90. However, concerning cybersecurity entity recognition, all evaluated chatbots have limitations and are less effective. This study demonstrates the capability of chatbots for OSINT binary classification and shows that they require further improvement in NER to effectively replace specially trained models. Our results shed light on the limitations of the LLM chatbots when compared to specialized models, and can help researchers improve chatbots technology with the objective to reduce the required effort to integrate machine learning in OSINT-based CTI tools.

arxiv情報

著者 Samaneh Shafee,Alysson Bessani,Pedro M. Ferreira
発行日 2024-04-19 09:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク