Evaluating the Adversarial Robustness of Convolution-based Human Motion Prediction

要約

人間の動作予測は、人間と機械の協調を容易にするCNNの助けを借りて、輝かしい性能を達成している。しかし、現在のところ、実際のアプリケーションにおいて危険を引き起こす可能性のある敵対的な攻撃に直面した場合の人間の動き予測における潜在的なリスクを評価した研究はありません。敵対的攻撃は人間の動き予測に対して2つの問題に直面する:1.1.ポーズデータは人間の骨格の物理的なダイナミクスに大きく関係するため、Lpノルム制約が敵対的な例をうまく拘束できない。2.画像の画素値と異なり、ポーズデータは撮影機器やデータ処理の違いによりスケールが多様であるため、固定的なパラメータを設定して攻撃を行うことが困難である。このような問題点を解決するために、物理的な制約条件下で予測誤差を最大化することで、入力された人体運動シーケンスに摂動を与える新たな敵対的攻撃手法を提案する。具体的には、攻撃対象のポーズのスケールに合わせて攻撃を容易にする新しい適応可能なスキームと、敵対的な例の知覚不可能性を高めるための2つの物理的制約を導入する。3つのデータセットを用いた評価実験により、全てのターゲットモデルの予測誤差が大幅に拡大することが示された。これは、提案する攻撃により、現在の畳み込みベースの人体運動予測モデルが容易に妨害されることを意味する。定量的解析から、事前知識と意味情報のモデル化が、人体運動予測モデルの敵対的頑健性の鍵となることが示された。定性的な結果は、フレーム単位で比較した場合、敵対的なサンプルは気づかれにくいが、サンプルがアニメーションしている場合は比較的容易に検出されることを示している。

要約(オリジナル)

Human motion prediction has achieved a brilliant performance with the help of CNNs, which facilitates human-machine cooperation. However, currently, there is no work evaluating the potential risk in human motion prediction when facing adversarial attacks, which may cause danger in real applications. The adversarial attack will face two problems against human motion prediction: 1. For naturalness, pose data is highly related to the physical dynamics of human skeletons where Lp norm constraints cannot constrain the adversarial example well; 2. Unlike the pixel value in images, pose data is diverse at scale because of the different acquisition equipment and the data processing, which makes it hard to set fixed parameters to perform attacks. To solve the problems above, we propose a new adversarial attack method that perturbs the input human motion sequence by maximizing the prediction error with physical constraints. Specifically, we introduce a novel adaptable scheme that facilitates the attack to suit the scale of the target pose and two physical constraints to enhance the imperceptibility of the adversarial example. The evaluating experiments on three datasets show that the prediction errors of all target models are enlarged significantly, which means current convolution-based human motion prediction models can be easily disturbed under the proposed attack. The quantitative analysis shows that prior knowledge and semantic information modeling can be the key to the adversarial robustness of human motion predictors. The qualitative results indicate that the adversarial sample is hard to be noticed when compared frame by frame but is relatively easy to be detected when the sample is animated.

arxiv情報

著者 Chengxu Duan,Zhicheng Zhang,Xiaoli Liu,Yonghao Dang,Jianqin Yin
発行日 2023-07-03 08:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク