An Empirical Study on Using Large Language Models to Analyze Software Supply Chain Security Failures

要約

ソフトウェア システムへの依存が高まるにつれ、ソフトウェア サプライ チェーンにおける侵害の影響はより深刻になります。
SolarWinds や ShadowHammer に対するような注目を集めたサイバー攻撃は、多大な財務的損失とデータ損失をもたらし、より強力なサイバーセキュリティの必要性を強調しています。
将来の侵害を防ぐ 1 つの方法は、過去の失敗を研究することです。
ただし、これらの障害を分析する従来の方法では、障害に関するレポートを手動で読んで要約する必要があります。
自動サポートによりコストが削減され、より多くの障害を分析できるようになります。
大規模言語モデル (LLM) などの自然言語処理 (NLP) 技術を利用して、障害の分析を支援することができます。
この研究では、過去のソフトウェア サプライ チェーン違反を分析する大規模言語モデル (LLM) の能力を評価しました。
私たちは LLM を使用して、Cloud Native Computing Foundation (CNCF) のメンバーが実行した 69 件のソフトウェア サプライ チェーンのセキュリティ障害の手動分析を再現しました。
私たちは、LLM が侵害の種類、意図、性質、影響の 4 つの側面でこれらを分類するためのプロンプトを開発しました。
これらの次元において、GPT 3.5 の分類の平均精度は 68% で、Bard の精度は 58% でした。
ソース記事が手動アナリストの間でコンセンサスを得るのに十分な詳細を備えているが、まだ人間のアナリストに代わることができない場合、LLM はソフトウェア サプライ チェーンの障害を効果的に特徴付けることができると報告しています。
今後の研究では、この文脈における LLM のパフォーマンスを向上させ、より広範囲の記事と失敗を研究することができます。

要約(オリジナル)

As we increasingly depend on software systems, the consequences of breaches in the software supply chain become more severe. High-profile cyber attacks like those on SolarWinds and ShadowHammer have resulted in significant financial and data losses, underlining the need for stronger cybersecurity. One way to prevent future breaches is by studying past failures. However, traditional methods of analyzing these failures require manually reading and summarizing reports about them. Automated support could reduce costs and allow analysis of more failures. Natural Language Processing (NLP) techniques such as Large Language Models (LLMs) could be leveraged to assist the analysis of failures. In this study, we assessed the ability of Large Language Models (LLMs) to analyze historical software supply chain breaches. We used LLMs to replicate the manual analysis of 69 software supply chain security failures performed by members of the Cloud Native Computing Foundation (CNCF). We developed prompts for LLMs to categorize these by four dimensions: type of compromise, intent, nature, and impact. GPT 3.5s categorizations had an average accuracy of 68% and Bard had an accuracy of 58% over these dimensions. We report that LLMs effectively characterize software supply chain failures when the source articles are detailed enough for consensus among manual analysts, but cannot yet replace human analysts. Future work can improve LLM performance in this context, and study a broader range of articles and failures.

arxiv情報

著者 Tanmay Singla,Dharun Anandayuvaraj,Kelechi G. Kalu,Taylor R. Schorlemmer,James C. Davis
発行日 2023-08-09 15:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE パーマリンク