TrojViT: Trojan Insertion in Vision Transformers

要約

ビジョン トランスフォーマー (ViT) は、さまざまなビジョン関連タスクで最先端のパフォーマンスを実証してきました。
ViT の成功により、敵対者は ViT に対してバックドア攻撃を実行するようになります。
従来の CNN がバックドア攻撃に対して脆弱であることはよく知られていますが、ViT に対するバックドア攻撃についてはほとんど研究されていません。
CNN が畳み込みによってピクセル単位のローカル特徴をキャプチャするのと比較して、ViT はパッチとアテンションを通じてグローバル コンテキスト情報を抽出します。
CNN 固有のバックドア攻撃を素朴に ViT に移植すると、クリーン データの精度が低くなり、攻撃の成功率も低くなります。
この論文では、ステルスかつ実用的な ViT 固有のバックドア攻撃 $TrojViT$ を提案します。
TrojViT は、CNN 固有のバックドア攻撃で使用されるエリア単位のトリガーではなく、パッチ顕著性ランキングとアテンション ターゲットを通じて、DRAM メモリに保存された ViT のパラメータ上のいくつかの脆弱なビットで構成されるトロイの木馬を構築するように設計されたパッチ単位のトリガーを生成します。
損失。
TrojViT はさらに、最小限に調整されたパラメータ更新を使用して、トロイの木馬のビット数を削減します。
攻撃者が脆弱なビットを反転して ViT モデルにトロイの木馬を挿入すると、ViT モデルは無害な入力で通常の推論精度を生成します。
しかし、攻撃者が入力にトリガーを埋め込むと、ViT モデルは入力を事前定義されたターゲット クラスに分類することを強制されます。
よく知られている RowHammer を使用して ViT モデル上で TrojViT によって特定された少数の脆弱なビットのみを反転することで、モデルをバックドア化されたモデルに変換できることを示します。
私たちは、さまざまな ViT モデルで複数のデータセットの広範な実験を実行します。
TrojViT は、ImageNet 用の ViT で $345$ ビットを反転することで、テスト イメージの $99.64\%$ をターゲット クラスに分類できます。コードは https://github.com/mxzheng/TrojViT で入手できます。

要約(オリジナル)

Vision Transformers (ViTs) have demonstrated the state-of-the-art performance in various vision-related tasks. The success of ViTs motivates adversaries to perform backdoor attacks on ViTs. Although the vulnerability of traditional CNNs to backdoor attacks is well-known, backdoor attacks on ViTs are seldom-studied. Compared to CNNs capturing pixel-wise local features by convolutions, ViTs extract global context information through patches and attentions. Na\’ively transplanting CNN-specific backdoor attacks to ViTs yields only a low clean data accuracy and a low attack success rate. In this paper, we propose a stealth and practical ViT-specific backdoor attack $TrojViT$. Rather than an area-wise trigger used by CNN-specific backdoor attacks, TrojViT generates a patch-wise trigger designed to build a Trojan composed of some vulnerable bits on the parameters of a ViT stored in DRAM memory through patch salience ranking and attention-target loss. TrojViT further uses minimum-tuned parameter update to reduce the bit number of the Trojan. Once the attacker inserts the Trojan into the ViT model by flipping the vulnerable bits, the ViT model still produces normal inference accuracy with benign inputs. But when the attacker embeds a trigger into an input, the ViT model is forced to classify the input to a predefined target class. We show that flipping only few vulnerable bits identified by TrojViT on a ViT model using the well-known RowHammer can transform the model into a backdoored one. We perform extensive experiments of multiple datasets on various ViT models. TrojViT can classify $99.64\%$ of test images to a target class by flipping $345$ bits on a ViT for ImageNet.Our codes are available at https://github.com/mxzheng/TrojViT

arxiv情報

著者 Mengxin Zheng,Qian Lou,Lei Jiang
発行日 2023-09-14 14:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク