Neuron Sensitivity Guided Test Case Selection for Deep Learning Testing

要約

ディープ ニューラル ネットワーク (DNN) は、さまざまなタスク (自動運転、医療診断など) に対処するためにソフトウェアに広く導入されています。
ただし、経済的損失をもたらしたり、人間の安全を脅かしたりする誤った行動を引き起こす可能性もあります。
DNN の誤った動作を明らかにして修復するために、DNN 開発者は多くの場合、自然界からラベルのない豊富なデータセットを収集し、それらにラベルを付けて DNN モデルをテストします。
ただし、ラベルのない多数のデータセットに適切にラベルを付けるのは、非常に高価で時間のかかる作業です。
上記の問題に対処するために、ラベルのないデータセットから価値のあるテスト ケースを選択することでラベル付け時間を短縮できる NSS (ニューロン感度ガイドに基づくテスト ケースの選択) を提案します。
NSS は、テスト ケースによって引き起こされる内部ニューロンの情報を利用して、モデルが誤った動作を引き起こす可能性が高い貴重なテスト ケースを選択します。
SOTA ベースライン手法と比較して、広く使用されている 4 つのデータセットと適切に設計された 4 つの DNN モデルを使用して NSS を評価します。
結果は、NSS がテスト ケースの障害トリガーの確率とモデルの改善能力の評価において優れたパフォーマンスを発揮していることを示しています。
具体的には、ベースラインのアプローチと比較して、NSS はより高い障害検出率を取得します (たとえば、MNIST \& LeNet1 実験のラベルなしデータセットから 5\% のテスト ケースを選択すると、NSS はベースラインより 20\% 高い 81.8\% の障害検出率を取得できます)。

要約(オリジナル)

Deep Neural Networks~(DNNs) have been widely deployed in software to address various tasks~(e.g., autonomous driving, medical diagnosis). However, they could also produce incorrect behaviors that result in financial losses and even threaten human safety. To reveal the incorrect behaviors in DNN and repair them, DNN developers often collect rich unlabeled datasets from the natural world and label them to test the DNN models. However, properly labeling a large number of unlabeled datasets is a highly expensive and time-consuming task. To address the above-mentioned problem, we propose NSS, Neuron Sensitivity guided test case Selection, which can reduce the labeling time by selecting valuable test cases from unlabeled datasets. NSS leverages the internal neuron’s information induced by test cases to select valuable test cases, which have high confidence in causing the model to behave incorrectly. We evaluate NSS with four widely used datasets and four well-designed DNN models compared to SOTA baseline methods. The results show that NSS performs well in assessing the test cases’ probability of fault triggering and model improvement capabilities. Specifically, compared with baseline approaches, NSS obtains a higher fault detection rate~(e.g., when selecting 5\% test case from the unlabeled dataset in MNIST \& LeNet1 experiment, NSS can obtain 81.8\% fault detection rate, 20\% higher than baselines).

arxiv情報

著者 Dong Huang,Qingwen Bu,Yichao Fu,Yuhao Qing,Bocheng Xiao,Heming Cui
発行日 2023-07-20 16:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク