Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs?

要約

検索ベースのソフトウェア テスト (SBST) は、ディープ ラーニング対応 (DL 対応) システムなど、大きな入力スペースを持つ複雑なシステムをテストするために広く採用されている手法です。
多くの SBST 手法はパレートベースの最適化に焦点を当てており、複数の目標を並行して最適化して失敗を明らかにします。
ただし、特定された障害が検索ドメインの障害を引き起こす領域全体に分散しており、サブ領域に集中していないことを確認することが重要です。
これにより、特定された障害が意味的に多様であることが保証され、広範囲にわたる根本的な原因が明らかになります。
この論文では、パレート最適化に基づくテストが検索ドメイン内の障害を引き起こす領域をカバーするのに不十分である理由を説明する理論的議論を紹介します。
私たちは、広く使用されている 2 つのタイプのパレートベースの最適化手法、つまり NSGA-II (進化的アルゴリズム) と MOPSO (群ベースのアルゴリズム) を 2 つの DL 対応システムに適用して得られた経験的結果によってこの議論を裏付けています。
バレーパーキング (AVP) システムと手書き数字を分類するシステム。
カバレッジ反転距離品質指標と呼ばれるメトリクスを使用して、入力空間内の障害を明らかにするテスト入力のカバレッジを測定します。
私たちの結果は、NSGA-II と MOPSO が、障害を明らかにするテスト入力をカバーする上で、単純なランダム検索ベースラインよりも効果的ではないことを示しています。
この研究のレプリケーション パッケージは、GitHub リポジトリで入手できます。

要約(オリジナル)

Search-based software testing (SBST) is a widely adopted technique for testing complex systems with large input spaces, such as Deep Learning-enabled (DL-enabled) systems. Many SBST techniques focus on Pareto-based optimization, where multiple objectives are optimized in parallel to reveal failures. However, it is important to ensure that identified failures are spread throughout the entire failure-inducing area of a search domain and not clustered in a sub-region. This ensures that identified failures are semantically diverse and reveal a wide range of underlying causes. In this paper, we present a theoretical argument explaining why testing based on Pareto optimization is inadequate for covering failure-inducing areas within a search domain. We support our argument with empirical results obtained by applying two widely used types of Pareto-based optimization techniques, namely NSGA-II (an evolutionary algorithm) and MOPSO (a swarm-based algorithm), to two DL-enabled systems: an industrial Automated Valet Parking (AVP) system and a system for classifying handwritten digits. We measure the coverage of failure-revealing test inputs in the input space using a metric that we refer to as the Coverage Inverted Distance quality indicator. Our results show that NSGA-II and MOPSO are not more effective than a na\’ive random search baseline in covering test inputs that reveal failures. The replication package for this study is available in a GitHub repository.

arxiv情報

著者 Lev Sorokin,Damir Safin,Shiva Nejati
発行日 2024-10-15 16:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク