ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks

要約

機械学習に対する初期のバックドア攻撃は、攻撃と防御の開発における軍拡競争を引き起こした。それ以来、モデル内のバックドアを検出したり、削除したりする能力を実証する防御策が登場している。これらの防御は、学習データ、モデル、または学習手順の完全性を検査することで機能する。本研究では、バックドアをコンパイル中に追加することが可能であり、データ準備とモデル学習段階での安全策を回避できることを示す。攻撃者は、既存の重みベースのバックドアだけでなく、ImpNetのような新しいクラスの重み非依存のバックドアもコンパイル中に挿入することができる。これらのバックドアはまだ存在しないため、トレーニングやデータ準備の過程では検出することができない。次に、ImpNetを含むいくつかのバックドアについては、バックドアが挿入された段階でのみ確実に検出することができ、それ以外の場所でバックドアを除去することは非常に困難であることを示す。結論として、MLモデルのセキュリティには、データ、モデル・アーキテクチャ、コンパイラ、ハードウェア仕様など、技術的パイプライン全体にわたる実証性の保証が必要である。

要約(オリジナル)

Early backdoor attacks against machine learning set off an arms race in attack and defence development. Defences have since appeared demonstrating some ability to detect backdoors in models or even remove them. These defences work by inspecting the training data, the model, or the integrity of the training procedure. In this work, we show that backdoors can be added during compilation, circumventing any safeguards in the data preparation and model training stages. The attacker can not only insert existing weight-based backdoors during compilation, but also a new class of weight-independent backdoors, such as ImpNet. These backdoors are impossible to detect during the training or data preparation processes, because they are not yet present. Next, we demonstrate that some backdoors, including ImpNet, can only be reliably detected at the stage where they are inserted and removing them anywhere else presents a significant challenge. We conclude that ML model security requires assurance of provenance along the entire technical pipeline, including the data, model architecture, compiler, and hardware specification.

arxiv情報

著者 Tim Clifford,Ilia Shumailov,Yiren Zhao,Ross Anderson,Robert Mullins
発行日 2024-03-01 13:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク