Harnessing Perceptual Adversarial Patches for Crowd Counting

要約

安全が求められるシーンでの人数推定に広く採用されている群集計数は、物理世界における敵対的な例(敵対的なパッチなど)に対して脆弱であることが示されている。敵対的な事例は有害ではあるが、モデルの頑健性を評価し、より良く理解するために貴重なものでもある。しかし、群衆測定のための既存の敵対的事例生成手法は、異なるブラックボックスモデル間の強い互換性を欠いており、実世界のシステムに対する実用性に限界がある。本論文では、モデル不変の特徴量と攻撃性の間に正の相関があることに着目し、モデル共有の知覚的特徴量を用いて群衆計測のための敵対的摂動を調整する知覚的敵対パッチ(PAP)生成の枠組みを提案する。具体的には、様々なモデル間で不変のスケール知覚特徴を捉えるために適応的な群衆密度重み付けアプローチを手作りし、モデル共有の位置知覚を捉えるために密度誘導型注意を利用する。また、密度誘導型アテンションにより、モデル間で共有された位置情報を捉えることができる。また,実験により,本パッチがデジタル世界と物理世界の両方において最先端の攻撃性能を達成し,先行提案よりも大きなマージン(最大+685.7MAE,+699.5MSE)を獲得することを示す.さらに、我々のPAPを用いた敵対的学習は、データセット間の汎化(最大-376.0MAE、-354.9MSE)や複雑な背景に対する頑健性(最大-10.3MAE、-16.4MSE)など、群集計数シナリオにおけるいくつかの実用的な課題の軽減にバニラモデルの性能に寄与できることを経験的に実証しています。

要約(オリジナル)

Crowd counting, which has been widely adopted for estimating the number of people in safety-critical scenes, is shown to be vulnerable to adversarial examples in the physical world (e.g., adversarial patches). Though harmful, adversarial examples are also valuable for evaluating and better understanding model robustness. However, existing adversarial example generation methods for crowd counting lack strong transferability among different black-box models, which limits their practicability for real-world systems. Motivated by the fact that attacking transferability is positively correlated to the model-invariant characteristics, this paper proposes the Perceptual Adversarial Patch (PAP) generation framework to tailor the adversarial perturbations for crowd counting scenes using the model-shared perceptual features. Specifically, we handcraft an adaptive crowd density weighting approach to capture the invariant scale perception features across various models and utilize the density guided attention to capture the model-shared position perception. Both of them are demonstrated to improve the attacking transferability of our adversarial patches. Extensive experiments show that our PAP could achieve state-of-the-art attacking performance in both the digital and physical world, and outperform previous proposals by large margins (at most +685.7 MAE and +699.5 MSE). Besides, we empirically demonstrate that adversarial training with our PAP can benefit the performance of vanilla models in alleviating several practical challenges in crowd counting scenarios, including generalization across datasets (up to -376.0 MAE and -354.9 MSE) and robustness towards complex backgrounds (up to -10.3 MAE and -16.4 MSE).

arxiv情報

著者 Shunchang Liu,Jiakai Wang,Aishan Liu,Yingwei Li,Yijie Gao,Xianglong Liu,Dacheng Tao
発行日 2022-09-09 07:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク