要約
多くの深層学習ベースのモデルは脆弱性検出において大きな進歩を遂げていますが、私たちはこれらのモデルについて十分に理解していないため、モデルの機能のさらなる進歩、モデル検出のメカニズムの理解、モデルの実際の適用の効率と安全性が制限されています。
。
この論文では、最近構築された大規模なデータセットで実験を行うことにより、2 種類の最先端の学習ベースのアプローチ (シーケンスベースとグラフベース) を広範囲かつ包括的に調査します。
私たちは、モデルの機能、モデルの解釈、モデルの安定性、モデルの使いやすさ、モデルの経済性という 5 つの側面から 7 つの研究課題を調査します。
シーケンスベースのモデルの優先順位と、LLM (ChatGPT) とグラフベースのモデルの両方の能力が限られていることを実験的に示します。
私たちは、学習ベースのモデルが得意とする脆弱性の種類を調査し、入力が意味的に同等に微妙に変更されているにもかかわらず、モデルの不安定性を明らかにします。
モデルが何を学習したかを経験的に説明します。
モデルを簡単に使用するための前処理と要件をまとめます。
最後に、これらのモデルを経済的かつ安全に実際に使用するための重要な情報を最初に導き出します。
要約(オリジナル)
Though many deep learning-based models have made great progress in vulnerability detection, we have no good understanding of these models, which limits the further advancement of model capability, understanding of the mechanism of model detection, and efficiency and safety of practical application of models. In this paper, we extensively and comprehensively investigate two types of state-of-the-art learning-based approaches (sequence-based and graph-based) by conducting experiments on a recently built large-scale dataset. We investigate seven research questions from five dimensions, namely model capabilities, model interpretation, model stability, ease of use of model, and model economy. We experimentally demonstrate the priority of sequence-based models and the limited abilities of both LLM (ChatGPT) and graph-based models. We explore the types of vulnerability that learning-based models skilled in and reveal the instability of the models though the input is subtlely semantical-equivalently changed. We empirically explain what the models have learned. We summarize the pre-processing as well as requirements for easily using the models. Finally, we initially induce the vital information for economically and safely practical usage of these models.
arxiv情報
著者 | Chao Ni,Liyu Shen,Xiaodan Xu,Xin Yin,Shaohua Wang |
発行日 | 2024-08-14 13:01:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google