Temporal-Distributed Backdoor Attack Against Video Based Action Recognition

要約

ディープニューラルネットワーク(DNN)は、ビデオアクション認識を含む様々なアプリケーションにおいて大きな成功を収めているが、バックドア攻撃(トロイの木馬)に対しては脆弱なままである。バックドアを侵害されたモデルは、(非ターゲットクラスからの)テストインスタンスが特定のトリガーで埋め込まれたときに、攻撃者が選択したターゲットクラスに誤分類するが、攻撃のないインスタンスでは高い精度を維持する。画像データに対するバックドア攻撃については広範な研究があるが、ビデオベースのシステムがバックドア攻撃を受けやすいかどうかについては、ほとんど未解明のままである。現在の研究は、画像データに対して提案されたアプローチを直接拡張したものであり、例えば、トリガーはフレーム内に独立して埋め込まれており、既存の防御によって検出可能である傾向がある。本論文では、動画データに対するシンプルかつ効果的なバックドア攻撃を紹介する。我々の提案する攻撃は、変換されたドメインに摂動を加えることで、ビデオフレーム全体に時間的に分散されたトリガーを知覚できないように仕込むものであり、既存の防御戦略に対して耐性があることを示す。提案する攻撃の有効性は、UCF101とHMDB51という2つのビデオ認識ベンチマークと、ギリシャ手話(GSL)データセットという手話認識ベンチマークを用いた、様々なよく知られたモデルによる広範な実験によって実証される。我々の提案する攻撃に対するいくつかの影響力のある要因の影響を掘り下げ、広範な研究を通じて「コラテラルダメージ」と呼ばれる興味深い効果を特定する。

要約(オリジナル)

Deep neural networks (DNNs) have achieved tremendous success in various applications including video action recognition, yet remain vulnerable to backdoor attacks (Trojans). The backdoor-compromised model will mis-classify to the target class chosen by the attacker when a test instance (from a non-target class) is embedded with a specific trigger, while maintaining high accuracy on attack-free instances. Although there are extensive studies on backdoor attacks against image data, the susceptibility of video-based systems under backdoor attacks remains largely unexplored. Current studies are direct extensions of approaches proposed for image data, e.g., the triggers are independently embedded within the frames, which tend to be detectable by existing defenses. In this paper, we introduce a simple yet effective backdoor attack against video data. Our proposed attack, adding perturbations in a transformed domain, plants an imperceptible, temporally distributed trigger across the video frames, and is shown to be resilient to existing defensive strategies. The effectiveness of the proposed attack is demonstrated by extensive experiments with various well-known models on two video recognition benchmarks, UCF101 and HMDB51, and a sign language recognition benchmark, Greek Sign Language (GSL) dataset. We delve into the impact of several influential factors on our proposed attack and identify an intriguing effect termed ‘collateral damage’ through extensive studies.

arxiv情報

著者 Xi Li,Songhe Wang,Ruiquan Huang,Mahanth Gowda,George Kesidis
発行日 2023-09-01 01:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク