要約
最近、バックドア攻撃に対する脆弱性により、実際のアプリケーションにおける機械学習モデルの信頼性が脅かされています。
従来の通念では、トリガー生成アルゴリズムの設計プロセスには、攻撃のステルス性と有効性を確保するために多大な労力と広範な実験が必要となることが多いため、誰もが攻撃者になれるわけではないことが示唆されています。
あるいは、この論文は、より深刻なバックドアの脅威が存在することを示しています。誰もが簡単にアクセスできるアルゴリズムを悪用してサイレント バックドア攻撃を行うことができます。
具体的には、この攻撃者は、多数の圧縮ツールから広く使用されている非可逆画像圧縮を利用して、目立った痕跡を残さずにトリガー パターンを画像に簡単に挿入できます。
つまり、生成されたトリガーは自然の成果物です。
非可逆画像圧縮ツールを使用するときに「変換」または「名前を付けて保存」ボタンをクリックするのに広範な知識は必要ありません。
この攻撃により、敵対者は従来の研究で見られたようなトリガー ジェネレーターを設計する必要がなく、データをポイズニングするだけで済みます。
経験的に、提案された攻撃は、MNIST、CIFAR-10、GTSRB、CelebA などのいくつかのベンチマーク データセットで一貫して 100% の攻撃成功率を達成しています。
さらに重要なことは、提案された攻撃は、クリーン ラベル設定では非常に低い (約 10%) ポイズン率でありながら、ほぼ 100% の攻撃成功率を達成できることです。
1 つの非可逆圧縮アルゴリズムを使用して提案された攻撃の生成されたトリガーは、他の関連する圧縮アルゴリズムにも転送可能であり、このバックドアの脅威の深刻さを悪化させます。
この研究は、実際のバックドア攻撃の広範なリスクを理解するための新たな重要な一歩を踏み出し、実務者に同様の攻撃と関連するバックドア軽減方法を調査するよう促しています。
要約(オリジナル)
The vulnerabilities to backdoor attacks have recently threatened the trustworthiness of machine learning models in practical applications. Conventional wisdom suggests that not everyone can be an attacker since the process of designing the trigger generation algorithm often involves significant effort and extensive experimentation to ensure the attack’s stealthiness and effectiveness. Alternatively, this paper shows that there exists a more severe backdoor threat: anyone can exploit an easily-accessible algorithm for silent backdoor attacks. Specifically, this attacker can employ the widely-used lossy image compression from a plethora of compression tools to effortlessly inject a trigger pattern into an image without leaving any noticeable trace; i.e., the generated triggers are natural artifacts. One does not require extensive knowledge to click on the ‘convert’ or ‘save as’ button while using tools for lossy image compression. Via this attack, the adversary does not need to design a trigger generator as seen in prior works and only requires poisoning the data. Empirically, the proposed attack consistently achieves 100% attack success rate in several benchmark datasets such as MNIST, CIFAR-10, GTSRB and CelebA. More significantly, the proposed attack can still achieve almost 100% attack success rate with very small (approximately 10%) poisoning rates in the clean label setting. The generated trigger of the proposed attack using one lossy compression algorithm is also transferable across other related compression algorithms, exacerbating the severity of this backdoor threat. This work takes another crucial step toward understanding the extensive risks of backdoor attacks in practice, urging practitioners to investigate similar attacks and relevant backdoor mitigation methods.
arxiv情報
著者 | Sze Jue Yang,Quang Nguyen,Chee Seng Chan,Khoa Doan |
発行日 | 2023-08-31 12:38:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google