RNN-Guard: Certified Robustness Against Multi-frame Attacks for Recurrent Neural Networks

要約

【タイトル】
再帰型ニューラルネットワークに対するマルチフレーム攻撃に対する保証付き堅牢性を持つRNN-Guard

【要約】
– 再帰型ニューラルネットワーク(RNN)は幅広く使用されているにもかかわらず、一つのフレームに対する攻撃やマルチフレーム攻撃などの敵対的攻撃に対して脆弱であることがよく知られている。
– 一つのフレームに対する保証付き防御がいくつか存在するものの、マルチフレーム攻撃に対する防御は、その膨大なひずみ領域のために課題が残る。
– そこでRNN-Guardと呼ばれるRNNに対するマルチフレーム攻撃に対する初の保証付き防御策を提案する。
– 上記の課題に対処するため、マルチフレーム攻撃と一致するひずみ空間を構築するために、全フレームを変形する戦略を採用する。
– しかし、全フレームを変形する戦略は線形緩和において精度の問題を引き起こす。その問題に対処するために、InterZonoと呼ばれる新しい抽象領域を導入し、より厳密な緩和を設計した。
– 実験により、InterZonoを用いたRNN-Guardによって計算された保証付き堅牢性は、Zonotopeを用いた場合より最大で2.18倍高かったことが示された。
– さらに、RNN-Guardをマルチフレーム攻撃に対する保証付きトレーニング法として拡張し、RNNの堅牢性を直接向上させることができることが実験によって示された。総じて、RNN-Guardを用いたトレーニング法は、他のトレーニング法と比較して15.47%〜67.65%高い堅牢性を持つことが示された。

要約(オリジナル)

It is well-known that recurrent neural networks (RNNs), although widely used, are vulnerable to adversarial attacks including one-frame attacks and multi-frame attacks. Though a few certified defenses exist to provide guaranteed robustness against one-frame attacks, we prove that defending against multi-frame attacks remains a challenging problem due to their enormous perturbation space. In this paper, we propose the first certified defense against multi-frame attacks for RNNs called RNN-Guard. To address the above challenge, we adopt the perturb-all-frame strategy to construct perturbation spaces consistent with those in multi-frame attacks. However, the perturb-all-frame strategy causes a precision issue in linear relaxations. To address this issue, we introduce a novel abstract domain called InterZono and design tighter relaxations. We prove that InterZono is more precise than Zonotope yet carries the same time complexity. Experimental evaluations across various datasets and model structures show that the certified robust accuracy calculated by RNN-Guard with InterZono is up to 2.18 times higher than that with Zonotope. In addition, we extend RNN-Guard as the first certified training method against multi-frame attacks to directly enhance RNNs’ robustness. The results show that the certified robust accuracy of models trained with RNN-Guard against multi-frame attacks is 15.47 to 67.65 percentage points higher than those with other training methods.

arxiv情報

著者 Yunruo Zhang,Tianyu Du,Shouling Ji,Peng Tang,Shanqing Guo
発行日 2023-04-17 03:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク