Hardly Perceptible Trojan Attack against Neural Networks with Bit Flips

要約

ディープニューラルネットワーク(DNN)のセキュリティは、さまざまなアプリケーションで広く使用されているため、ますます注目を集めています。
最近、展開されたDNNは、トロイの木馬攻撃に対して脆弱であることが実証されました。トロイの木馬攻撃は、ビットフリップでモデルパラメータを操作して、隠れた動作を注入し、特定のトリガーパターンによってアクティブにします。
ただし、既存のすべてのトロイの木馬攻撃は、目立つパッチベースのトリガー(正方形のパターンなど)を採用しているため、人間が認識しやすく、マシンが簡単に見つけることができます。
このホワイトペーパーでは、新しい攻撃、つまりほとんど知覚できないトロイの木馬攻撃(HPT)を紹介します。
HPTは、加法性ノイズとピクセルごとのフローフィールドを利用して、元の画像のピクセル値と位置をそれぞれ微調整することにより、ほとんど知覚できないトロイの木馬画像を作成します。
優れた攻撃性能を実現するために、ビットフリップ、加法性ノイズ、およびフローフィールドを共同で最適化することを提案します。
DNNの重みビットはバイナリであるため、この問題を解決するのは非常に困難です。
同等の置換でバイナリ制約を処理し、効果的な最適化アルゴリズムを提供します。
CIFAR-10、SVHN、およびImageNetデータセットでの広範な実験により、提案されたHPTは、最先端の方法と比較して同等以上の攻撃パフォーマンスを達成しながら、ほとんど知覚できないトロイの木馬画像を生成できることが示されています。
コードはhttps://github.com/jiawangbai/HPTで入手できます。

要約(オリジナル)

The security of deep neural networks (DNNs) has attracted increasing attention due to their widespread use in various applications. Recently, the deployed DNNs have been demonstrated to be vulnerable to Trojan attacks, which manipulate model parameters with bit flips to inject a hidden behavior and activate it by a specific trigger pattern. However, all existing Trojan attacks adopt noticeable patch-based triggers (e.g., a square pattern), making them perceptible to humans and easy to be spotted by machines. In this paper, we present a novel attack, namely hardly perceptible Trojan attack (HPT). HPT crafts hardly perceptible Trojan images by utilizing the additive noise and per pixel flow field to tweak the pixel values and positions of the original images, respectively. To achieve superior attack performance, we propose to jointly optimize bit flips, additive noise, and flow field. Since the weight bits of the DNNs are binary, this problem is very hard to be solved. We handle the binary constraint with equivalent replacement and provide an effective optimization algorithm. Extensive experiments on CIFAR-10, SVHN, and ImageNet datasets show that the proposed HPT can generate hardly perceptible Trojan images, while achieving comparable or better attack performance compared to the state-of-the-art methods. The code is available at: https://github.com/jiawangbai/HPT.

arxiv情報

著者 Jiawang Bai,Kuofeng Gao,Dihong Gong,Shu-Tao Xia,Zhifeng Li,Wei Liu
発行日 2022-07-27 09:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク