要約
MLテストに使用される脆弱性データセットには、遡及的情報が暗黙的に含まれています。
フィールドでテストされた場合、トレーニングとテスト時に利用可能なラベルを使用することができます(たとえば、見られたり、想定されているネガティブ)。
カレンダー時間全体で脆弱性が発見されるため、ラベルの変化と過去のパフォーマンスは、必ずしも将来のパフォーマンスと一致するわけではありません。
過去の作品は、全歴史のスライス(例:多様性)または放出間の個人差のみを考慮した(例:Jimenez etal。ESEC/FSE 2019)。
このようなアプローチは、トレーニング(歴史全体など)が楽観的すぎるか、保守的すぎる(例:連続リリース)のいずれかです。
データセットを再構築する方法を提案し、トレーニングラベルとテストラベルの両方が変更されて、当時利用可能な知識を説明するために変更します。
モデルが実際に学習している場合、より多くのデータが利用可能になり、データがより安定になるにつれて、時間の経過とともにパフォーマンスを改善する必要があります。これは、Mann-Kendallテストでチェックできる効果です。
4つの時間ベースのデータセット(BigVul Dataset + VuldeePeckerのNVDからの3つのプロジェクト)および5 MLモデル(Code2Vec、Codebert、Linevul、Regvd、およびVuldeepecker)を使用して、脆弱性検出の方法論を検証します。
直感的な期待(より遡及的な情報、より良いパフォーマンス)とは対照的に、トレンドの結果は、パフォーマンスが長年にわたって矛盾して変化することを示しており、ほとんどのモデルが学習していないことを示しています。
要約(オリジナル)
Vulnerability datasets used for ML testing implicitly contain retrospective information. When tested on the field, one can only use the labels available at the time of training and testing (e.g. seen and assumed negatives). As vulnerabilities are discovered across calendar time, labels change and past performance is not necessarily aligned with future performance. Past works only considered the slices of the whole history (e.g. DiverseVUl) or individual differences between releases (e.g. Jimenez et al. ESEC/FSE 2019). Such approaches are either too optimistic in training (e.g. the whole history) or too conservative (e.g. consecutive releases). We propose a method to restructure a dataset into a series of datasets in which both training and testing labels change to account for the knowledge available at the time. If the model is actually learning, it should improve its performance over time as more data becomes available and data becomes more stable, an effect that can be checked with the Mann-Kendall test. We validate our methodology for vulnerability detection with 4 time-based datasets (3 projects from BigVul dataset + Vuldeepecker’s NVD) and 5 ML models (Code2Vec, CodeBERT, LineVul, ReGVD, and Vuldeepecker). In contrast to the intuitive expectation (more retrospective information, better performance), the trend results show that performance changes inconsistently across the years, showing that most models are not learning.
arxiv情報
著者 | Ranindya Paramitha,Yuan Feng,Fabio Massacci |
発行日 | 2025-06-13 16:42:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google