Feature Map Testing for Deep Neural Networks

要約

安全性が重要なタスクにおいてディープ ニューラル ネットワーク (DNN) が広く適用されているため、ディープ ラーニング テストへの注目が高まっています。
テストプロセス中、テストメトリクスを使用してファジー化または選択されたテストケースがモデルに入力され、障害を引き起こすテストユニット(ニューロンや特徴マップなど、ほぼ確実にモデルエラーを引き起こす活性化)を見つけてDNN開発者に報告され、DNN開発者はその後それらを修復します(例:テストケースを使用してモデルを再トレーニングする)。
ただし、現在のテスト メトリクスは主にニューロンに関係しています。つまり、これらのメトリクスを使用したガイド付きファジングまたは選択によって検出されるテスト ケースは、障害を引き起こすニューロンの検出に重点を置き、障害を引き起こす特徴マップの検出に失敗します。
この研究では、DNN を特徴マップ レベルからテストする DeepFeature を提案します。
テストが実施されると、DeepFeature はモデル内のすべての内部機能マップを精査し、モデルの全体的なパフォーマンスを向上させるために修復することで強化できる脆弱性を特定します。
(1) DeepFeature はモデルの脆弱な特徴マップを検出するための強力なツールであることを実証するために徹底的な実験が行われます。
(2) DeepFeature のテスト ケース選択は障害検出率が高く、より多くの種類の障害を検出できます~(DeepFeature とカバレッジ ガイドに基づく選択手法を比較すると、障害検出率は 49.32\% 増加します)。
(3) DeepFeature のファザーは、現在のファジング技術よりも優れたパフォーマンスを発揮し、貴重なテスト ケースをより効率的に生成します。

要約(オリジナル)

Due to the widespread application of deep neural networks~(DNNs) in safety-critical tasks, deep learning testing has drawn increasing attention. During the testing process, test cases that have been fuzzed or selected using test metrics are fed into the model to find fault-inducing test units (e.g., neurons and feature maps, activating which will almost certainly result in a model error) and report them to the DNN developer, who subsequently repair them~(e.g., retraining the model with test cases). Current test metrics, however, are primarily concerned with the neurons, which means that test cases that are discovered either by guided fuzzing or selection with these metrics focus on detecting fault-inducing neurons while failing to detect fault-inducing feature maps. In this work, we propose DeepFeature, which tests DNNs from the feature map level. When testing is conducted, DeepFeature will scrutinize every internal feature map in the model and identify vulnerabilities that can be enhanced through repairing to increase the model’s overall performance. Exhaustive experiments are conducted to demonstrate that (1) DeepFeature is a strong tool for detecting the model’s vulnerable feature maps; (2) DeepFeature’s test case selection has a high fault detection rate and can detect more types of faults~(comparing DeepFeature to coverage-guided selection techniques, the fault detection rate is increased by 49.32\%). (3) DeepFeature’s fuzzer also outperforms current fuzzing techniques and generates valuable test cases more efficiently.

arxiv情報

著者 Dong Huang,Qingwen Bu,Yahao Qing,Yichao Fu,Heming Cui
発行日 2023-07-21 13:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク