Provably Valid and Diverse Mutations of Real-World Media Data for DNN Testing

要約

ディープ ニューラル ネットワーク (DNN) は、多くの場合、高次元のメディア データ (写真、テキスト、音声など) を受け入れ、その知覚コンテンツ (猫など) を理解します。
DNN をテストするには、予測ミスを引き起こすための多様な入力が必要です。
一部の予備作業では、バイトレベルの変更またはドメイン固有のフィルター (フォギーなど) が使用されていますが、有効な変更は制限されており、エラーが発生しやすい可能性があります。
SOTA 作品では、(無限の) 入力を生成するために深い生成モデルが採用されています。
また、変異した入力を知覚的に有効に保つために(たとえば、猫は変異後も「猫」のままである)、既存の取り組みは不正確で一般化が困難なヒューリスティックに依存しています。
この研究は、メディア入力の突然変異における 2 つの主要な目的である知覚多様性 (DIV) と妥当性 (VAL) を、低次元空間における高次元メディア データの知覚を捉える十分に開発された理論であるマニホールドに基づいて厳密な方法で再検討します。
我々は、DIV と VAL が互いに密接に結びついているという重要な結果を示し、SOTA 生成モデルベースの手法が現実世界のメディア データを (DIV または VAL を犠牲にして) 変更することが根本的にできないことを証明します。
対照的に、多様体に基づいて高い DIV と VAL が証明されている現実世界のメディア データを変更する実現可能性について議論します。
多様なフォーマット(画像、音声、テキスト)のメディアデータをマニホールドに基づいて統一的に変換する技術的ソリューションを具体化します。
具体的には、メディア データが低次元多様体に射影される場合、特定の方向とステップ サイズで多様体上を歩くことによってデータを突然変異させることができます。
入力データと対比すると、変異データは、適度に高い VAL を維持しながら(つまり、犬は犬のまま)、知覚特性において有望な DIV を示します(たとえば、横たわっている犬と立っている犬)。
DNN をテストするために DEEPwalk に技術を実装します。
DEEPwalk は、包括性のテストにおいて従来の方法よりも優れたパフォーマンスを発揮し、より高品質でエラーの原因となる入力をより多く検出できます。

要約(オリジナル)

Deep neural networks (DNNs) often accept high-dimensional media data (e.g., photos, text, and audio) and understand their perceptual content (e.g., a cat). To test DNNs, diverse inputs are needed to trigger mis-predictions. Some preliminary works use byte-level mutations or domain-specific filters (e.g., foggy), whose enabled mutations may be limited and likely error-prone. SOTA works employ deep generative models to generate (infinite) inputs. Also, to keep the mutated inputs perceptually valid (e.g., a cat remains a ‘cat’ after mutation), existing efforts rely on imprecise and less generalizable heuristics. This study revisits two key objectives in media input mutation – perception diversity (DIV) and validity (VAL) – in a rigorous manner based on manifold, a well-developed theory capturing perceptions of high-dimensional media data in a low-dimensional space. We show important results that DIV and VAL inextricably bound each other, and prove that SOTA generative model-based methods fundamentally fail to mutate real-world media data (either sacrificing DIV or VAL). In contrast, we discuss the feasibility of mutating real-world media data with provably high DIV and VAL based on manifold. We concretize the technical solution of mutating media data of various formats (images, audios, text) via a unified manner based on manifold. Specifically, when media data are projected into a low-dimensional manifold, the data can be mutated by walking on the manifold with certain directions and step sizes. When contrasted with the input data, the mutated data exhibit encouraging DIV in the perceptual traits (e.g., lying vs. standing dog) while retaining reasonably high VAL (i.e., a dog remains a dog). We implement our techniques in DEEPWALK for testing DNNs. DEEPWALK outperforms prior methods in testing comprehensiveness and can find more error-triggering inputs with higher quality.

arxiv情報

著者 Yuanyuan Yuan,Qi Pang,Shuai Wang
発行日 2023-10-24 17:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE パーマリンク