要約
ディープニューラルネットワーク(DNN)は「バックドア攻撃」と呼ばれる攻撃に対して脆弱であり、バックドアトリガーと攻撃者が悪用しようとするターゲットラベルの間に関連付けを行うものである。バックドア攻撃を受けたDNNは、クリーンなテスト画像では良好な性能を示すものの、バックドアトリガーが存在するサンプルに対しては攻撃者が定義したラベルを持続的に予測する。バックドア攻撃は画像領域で広く研究されているが、ビデオ領域でそのような攻撃を探求する研究は非常に少なく、それらは画像バックドア攻撃はビデオ領域ではあまり有効でないと結論付ける傾向がある。この研究では、従来のバックドア脅威モデルを再検討し、そのモデルにビデオ関連の側面を追加しています。毒ラベル画像バックドア攻撃は、静的および動的な2つの方法で時間的に拡張でき、ビデオ領域で非常に効果的な攻撃につながることを示す。さらに、ビデオ領域におけるこの脆弱性の深刻さを強調するために、自然なビデオバックドアを探求しています。さらに、映像行動認識モデルに対するマルチモーダル(視聴覚)バックドア攻撃を初めて研究し、高い攻撃成功率を達成するためには、単一のモダリティを攻撃するだけで十分であることを示す。
要約(オリジナル)
Deep neural networks (DNNs) are vulnerable to a class of attacks called ‘backdoor attacks’, which create an association between a backdoor trigger and a target label the attacker is interested in exploiting. A backdoored DNN performs well on clean test images, yet persistently predicts an attacker-defined label for any sample in the presence of the backdoor trigger. Although backdoor attacks have been extensively studied in the image domain, there are very few works that explore such attacks in the video domain, and they tend to conclude that image backdoor attacks are less effective in the video domain. In this work, we revisit the traditional backdoor threat model and incorporate additional video-related aspects to that model. We show that poisoned-label image backdoor attacks could be extended temporally in two ways, statically and dynamically, leading to highly effective attacks in the video domain. In addition, we explore natural video backdoors to highlight the seriousness of this vulnerability in the video domain. And, for the first time, we study multi-modal (audiovisual) backdoor attacks against video action recognition models, where we show that attacking a single modality is enough for achieving a high attack success rate.
arxiv情報
著者 | Hasan Abed Al Kader Hammoud,Shuming Liu,Mohammad Alkhrasi,Fahad AlBalawi,Bernard Ghanem |
発行日 | 2023-01-03 07:40:28+00:00 |
arxivサイト | arxiv_id(pdf) |