LEAP: Efficient and Automated Test Method for NLP Software

要約

NLP ソフトウェアで DNN が広く採用されていることから、堅牢性の必要性が浮き彫りになっています。
研究者たちは、敵対的テストケースに対してさまざまな自動テスト手法を提案しました。
ただし、既存の手法には 2 つの制限があります。1 つは、BERT ベースの NLP ソフトウェアの成功率が 0% ~ 24.6% の弱いエラー検出機能、もう 1 つはテスト ケースごとに 177.8 秒から 205.28 秒かかるため、時間効率が悪く、
時間に制約のあるシナリオ。
これらの問題に対処するために、この文書では LEAP を提案します。LEAP は、敵対的テスト ケースを生成するためにテキスト機能と統合された LEvy フライトベースの適応粒子群最適化を使用する自動テスト手法です。
具体的には、母集団の初期化に Levy フライトを採用し、生成されるテスト ケースの多様性を高めます。
また、LEAP の高次元テキスト例のグローバル最適化の効率を向上させる慣性重み適応更新オペレーターと、検索時間を短縮するための貪欲な戦略に基づく突然変異オペレーターも設計します。
NLP ソフトウェアをテストする LEAP の能力を検証するために一連の実験を実施したところ、敵対的テスト ケースの生成における LEAP の平均成功率は 79.1% であり、次善のアプローチ (PSO攻撃) よりも 6.1% 高いことがわかりました。
LEAP は高い成功率を保証しながら、他のヒューリスティックベースの方法と比較して、時間のオーバーヘッドを最大 147.6 秒大幅に削減します。
さらに、実験結果は、LEAP がより転送可能なテスト ケースを生成し、DNN ベースのシステムの堅牢性を大幅に強化できることを示しています。

要約(オリジナル)

The widespread adoption of DNNs in NLP software has highlighted the need for robustness. Researchers proposed various automatic testing techniques for adversarial test cases. However, existing methods suffer from two limitations: weak error-discovering capabilities, with success rates ranging from 0% to 24.6% for BERT-based NLP software, and time inefficiency, taking 177.8s to 205.28s per test case, making them challenging for time-constrained scenarios. To address these issues, this paper proposes LEAP, an automated test method that uses LEvy flight-based Adaptive Particle swarm optimization integrated with textual features to generate adversarial test cases. Specifically, we adopt Levy flight for population initialization to increase the diversity of generated test cases. We also design an inertial weight adaptive update operator to improve the efficiency of LEAP’s global optimization of high-dimensional text examples and a mutation operator based on the greedy strategy to reduce the search time. We conducted a series of experiments to validate LEAP’s ability to test NLP software and found that the average success rate of LEAP in generating adversarial test cases is 79.1%, which is 6.1% higher than the next best approach (PSOattack). While ensuring high success rates, LEAP significantly reduces time overhead by up to 147.6s compared to other heuristic-based methods. Additionally, the experimental results demonstrate that LEAP can generate more transferable test cases and significantly enhance the robustness of DNN-based systems.

arxiv情報

著者 Mingxuan Xiao,Yan Xiao,Hai Dong,Shunhui Ji,Pengcheng Zhang
発行日 2023-08-22 08:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク