Consistent Attack: Universal Adversarial Perturbation on Embodied Vision Navigation

要約

ディープニューラルネットワークと組み合わせたビジョンナビゲーションにおけるエンボディエージェントが注目されている。しかし、ディープニューラルネットワークは、悪意のある敵対的ノイズに弱いことが示されており、エンボディドビジョンナビゲーションにおいて致命的な失敗を引き起こす可能性がある。様々な敵対的ノイズの中でも、普遍的敵対的摂動(UAP)、すなわち、エージェントのすべての入力フレームに適用される一定の画像にとらわれない摂動は、計算効率が高く、攻撃中のアプリケーション実用的であるため、Embodied Vision Navigationにおいて重要な役割を担っている。しかし、既存のUAP手法は、Embodied Vision Navigationのシステムダイナミクスを無視しており、最適でない可能性がある。UAPを逐次決定設定に拡張するために、普遍ノイズ$delta$の下で乱れた環境を、$delta$-disturbed Markov Decision Process ($delta$-MDP)として定式化する。この定式化に基づき、我々は$delta$-MDPの特性を分析し、Embodiedエージェントを攻撃するために、Reward UAPとTrajectory UAPという2つの新しいConsistent Attack手法を提案する。MDPのダイナミックを考慮し、妨害分布と妨害Q関数を推定してユニバーサルノイズを計算する。様々な被害者モデルに対して、我々のConsistent Attackは、異なるデータセットや異なるシーンを持つHabitatにおいて、PointGoalタスクにおける彼らのパフォーマンスを大幅に低下させることができます。広範な実験結果から、Embodied Vision Navigation手法を実世界に適用することには、深刻な潜在的リスクが存在することが示されました。

要約(オリジナル)

Embodied agents in vision navigation coupled with deep neural networks have attracted increasing attention. However, deep neural networks have been shown vulnerable to malicious adversarial noises, which may potentially cause catastrophic failures in Embodied Vision Navigation. Among different adversarial noises, universal adversarial perturbations (UAP), i.e., a constant image-agnostic perturbation applied on every input frame of the agent, play a critical role in Embodied Vision Navigation since they are computation-efficient and application-practical during the attack. However, existing UAP methods ignore the system dynamics of Embodied Vision Navigation and might be sub-optimal. In order to extend UAP to the sequential decision setting, we formulate the disturbed environment under the universal noise $\delta$, as a $\delta$-disturbed Markov Decision Process ($\delta$-MDP). Based on the formulation, we analyze the properties of $\delta$-MDP and propose two novel Consistent Attack methods, named Reward UAP and Trajectory UAP, for attacking Embodied agents, which consider the dynamic of the MDP and calculate universal noises by estimating the disturbed distribution and the disturbed Q function. For various victim models, our Consistent Attack can cause a significant drop in their performance in the PointGoal task in Habitat with different datasets and different scenes. Extensive experimental results indicate that there exist serious potential risks for applying Embodied Vision Navigation methods to the real world.

arxiv情報

著者 Chengyang Ying,You Qiaoben,Xinning Zhou,Hang Su,Wenbo Ding,Jianyong Ai
発行日 2023-03-06 11:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク