LLbezpeky: Leveraging Large Language Models for Vulnerability Detection

要約

継続的な研究と安全なシステム構築の進歩にも関わらず、Android アプリケーションには引き続き脆弱性が存在しており、効果的な検出方法が必要です。
静的分析ツールと動的分析ツールを使用する現在の戦略には、圧倒的な数の誤検知や限られた分析範囲などの制限があり、どちらも採用することが困難です。
過去数年にわたり、機械学習ベースのアプローチは脆弱性検出のために広く検討されてきましたが、その現実世界への適用性はデータ要件と機能エンジニアリングの課題によって制限されています。
大規模言語モデル (LLM) は、膨大なパラメーターを備えており、プログラミング言語だけでなく人間の意味論を理解する上でも大きな可能性を示しています。
Android セキュリティのコンテキストで脆弱性を検出するための LLM の有効性について詳しく説明します。
私たちは、開発者による脆弱性の特定と修正を支援する AI 主導のワークフローの構築に重点を置いています。
私たちの実験によると、LLM は、Ghera ベンチマークの 91.67% のケースで、アプリケーション内の問題を発見し、安全でないアプリに正しくフラグを立てるという点で、私たちの期待を上回りました。
私たちは、堅牢で実用的な脆弱性検出システムの構築に向けた実験からの推論を使用し、その有効性を実証します。
私たちの実験では、さまざまな単純な構成が真陽性 (TP) 率と偽陽性 (FP) 率にどのように影響するかについても明らかにしました。

要約(オリジナル)

Despite the continued research and progress in building secure systems, Android applications continue to be ridden with vulnerabilities, necessitating effective detection methods. Current strategies involving static and dynamic analysis tools come with limitations like overwhelming number of false positives and limited scope of analysis which make either difficult to adopt. Over the past years, machine learning based approaches have been extensively explored for vulnerability detection, but its real-world applicability is constrained by data requirements and feature engineering challenges. Large Language Models (LLMs), with their vast parameters, have shown tremendous potential in understanding semnatics in human as well as programming languages. We dive into the efficacy of LLMs for detecting vulnerabilities in the context of Android security. We focus on building an AI-driven workflow to assist developers in identifying and rectifying vulnerabilities. Our experiments show that LLMs outperform our expectations in finding issues within applications correctly flagging insecure apps in 91.67% of cases in the Ghera benchmark. We use inferences from our experiments towards building a robust and actionable vulnerability detection system and demonstrate its effectiveness. Our experiments also shed light on how different various simple configurations can affect the True Positive (TP) and False Positive (FP) rates.

arxiv情報

著者 Noble Saji Mathews,Yelizaveta Brus,Yousra Aafer,Meiyappan Nagappan,Shane McIntosh
発行日 2024-02-13 17:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SE パーマリンク