要約
このペーパーでは、プロのソフトウェア開発者が所有する実際のプロジェクトについて、脆弱性の検出および修正ツールに関する最初の実証研究を紹介します。
私たちは、最先端の検出および修正モデルに基づいた IDE 統合ツールである DeepVulGuard を実装し、これが過去の脆弱性データのベンチマークで有望なパフォーマンスを示していることを示しました。
DeepVulGuard はコードの脆弱性をスキャンし (脆弱性の種類とコードの脆弱な領域の特定を含む)、修正を提案し、チャット インターフェイスを利用してアラートと修正について自然言語で説明します。
Microsoft では 17 人のプロのソフトウェア開発者を採用し、コード上でのツールの使用状況を観察し、インタビューを実施してツールの有用性、速度、信頼性、関連性、ワークフローの統合を評価しました。
また、ユーザーの認識と希望する機能に関する詳細な定性フィードバックも収集しました。
調査参加者は、合計 24 のプロジェクト、690 のファイル、170 万行を超えるソース コードをスキャンし、170 のアラートと 50 の修正提案を生成しました。
最先端の AI を活用した検出および修正ツールは有望であるものの、誤検知率が高く、修正が適用できないため、現実世界での使用にはまだ実用的ではないことがわかりました。
ユーザーのフィードバックにより、不完全なコンテキストからユーザーのコードベースのカスタマイズの欠如に至るまで、いくつかの実用的な問題点が明らかになります。
さらに、信頼スコア、説明、チャットの対話などの AI 機能が脆弱性の検出と修正にどのように適用できるかを調査します。
これらの洞察に基づいて、AI 検出および修正モデルを評価および展開するための実践的な推奨事項を提供します。
コードとデータは https://doi.org/10.6084/m9.figshare.26367139 で入手できます。
要約(オリジナル)
This paper presents the first empirical study of a vulnerability detection and fix tool with professional software developers on real projects that they own. We implemented DeepVulGuard, an IDE-integrated tool based on state-of-the-art detection and fix models, and show that it has promising performance on benchmarks of historic vulnerability data. DeepVulGuard scans code for vulnerabilities (including identifying the vulnerability type and vulnerable region of code), suggests fixes, provides natural-language explanations for alerts and fixes, leveraging chat interfaces. We recruited 17 professional software developers at Microsoft, observed their usage of the tool on their code, and conducted interviews to assess the tool’s usefulness, speed, trust, relevance, and workflow integration. We also gathered detailed qualitative feedback on users’ perceptions and their desired features. Study participants scanned a total of 24 projects, 6.9k files, and over 1.7 million lines of source code, and generated 170 alerts and 50 fix suggestions. We find that although state-of-the-art AI-powered detection and fix tools show promise, they are not yet practical for real-world use due to a high rate of false positives and non-applicable fixes. User feedback reveals several actionable pain points, ranging from incomplete context to lack of customization for the user’s codebase. Additionally, we explore how AI features, including confidence scores, explanations, and chat interaction, can apply to vulnerability detection and fixing. Based on these insights, we offer practical recommendations for evaluating and deploying AI detection and fix models. Our code and data are available at https://doi.org/10.6084/m9.figshare.26367139.
arxiv情報
著者 | Benjamin Steenhoek,Kalpathy Sivaraman,Renata Saldivar Gonzalez,Yevhen Mohylevskyy,Roshanak Zilouchian Moghaddam,Wei Le |
発行日 | 2025-01-10 17:00:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google