Beyond Fidelity: Explaining Vulnerability Localization of Learning-based Detectors

要約

ディープラーニング(DL)モデルに基づく脆弱性検出器は、近年その有効性が証明されています。
ただし、これらの検出器の意思決定プロセスは不透明に覆われているため、セキュリティ アナリストが理解するのは困難です。
これに対処するために、重要な特徴を強調して予測を説明するさまざまな説明アプローチが提案されており、コンピュータービジョンや自然言語処理などの他の分野でも効果的であることが実証されています。
残念ながら、これらの説明アプローチによって学習および理解された、きめ細かい脆弱性関連のコード行など、脆弱性にとって重要な機能の詳細な評価は依然として不足しています。
この研究では、最初に、グラフとシーケンス表現に基づく脆弱性検出器の 10 種類の説明アプローチのパフォーマンスを評価します。このパフォーマンスは、忠実度および脆弱性ライン カバレージ レートを含む 2 つの定量的指標によって測定されます。
私たちの結果は、忠実度はデータセットや検出器が異なると大きな変動が生じるため、忠実度だけではこれらのアプローチを評価するには十分ではないことを示しています。
その後、説明アプローチによって報告された脆弱性に関連するコード行の精度をチェックし、すべてのアプローチの中でこのタスクの精度が低いことを発見しました。
これは、重要な特徴を選択する際の説明者の非効率性と、DL ベースの検出器によって学習された無関係なアーティファクトの存在に起因する可能性があります。

要約(オリジナル)

Vulnerability detectors based on deep learning (DL) models have proven their effectiveness in recent years. However, the shroud of opacity surrounding the decision-making process of these detectors makes it difficult for security analysts to comprehend. To address this, various explanation approaches have been proposed to explain the predictions by highlighting important features, which have been demonstrated effective in other domains such as computer vision and natural language processing. Unfortunately, an in-depth evaluation of vulnerability-critical features, such as fine-grained vulnerability-related code lines, learned and understood by these explanation approaches remains lacking. In this study, we first evaluate the performance of ten explanation approaches for vulnerability detectors based on graph and sequence representations, measured by two quantitative metrics including fidelity and vulnerability line coverage rate. Our results show that fidelity alone is not sufficient for evaluating these approaches, as fidelity incurs significant fluctuations across different datasets and detectors. We subsequently check the precision of the vulnerability-related code lines reported by the explanation approaches, and find poor accuracy in this task among all of them. This can be attributed to the inefficiency of explainers in selecting important features and the presence of irrelevant artifacts learned by DL-based detectors.

arxiv情報

著者 Baijun Cheng,Shengming Zhao,Kailong Wang,Meizhen Wang,Guangdong Bai,Ruitao Feng,Yao Guo,Lei Ma,Haoyu Wang
発行日 2024-02-21 15:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE パーマリンク