要約
映像の異常検出は近年、弱い監視の下での複数インスタンス学習課題として定式化されており、各映像は異常が含まれているかどうかを判断するスニペットのバッグとして扱われる。これまでの研究では、スニペット自体の識別に主眼が置かれ、隣接するスニペットの時間的変化を考慮した識別は行われていない。そこで我々は、ダイナミクスランキング損失とダイナミクスアライメント損失という2つの目的関数を用いた識別ダイナミクス学習(DDL)手法を提案する。前者は正バッグと負バッグのスコアダイナミクスの差を拡大することを目的とし,後者はバッグ内の特徴ダイナミクスとスコアダイナミクスの時間的なアライメントを行う.さらに、Locality-aware Attention Network (LA-Net) を構築し、グローバルな相関を捉え、スニペット間の位置選好を再調整し、その後、因果関係畳み込みによる多層パーセプトロンで異常スコアを求める。実験の結果、本手法はUCF-CrimeとXD-Violenceという2つのベンチマークにおいて、大幅な改善を達成したことが示された。
要約(オリジナル)
Video anomaly detection is recently formulated as a multiple instance learning task under weak supervision, in which each video is treated as a bag of snippets to be determined whether contains anomalies. Previous efforts mainly focus on the discrimination of the snippet itself without modeling the temporal dynamics, which refers to the variation of adjacent snippets. Therefore, we propose a Discriminative Dynamics Learning (DDL) method with two objective functions, i.e., dynamics ranking loss and dynamics alignment loss. The former aims to enlarge the score dynamics gap between positive and negative bags while the latter performs temporal alignment of the feature dynamics and score dynamics within the bag. Moreover, a Locality-aware Attention Network (LA-Net) is constructed to capture global correlations and re-calibrate the location preference across snippets, followed by a multilayer perceptron with causal convolution to obtain anomaly scores. Experimental results show that our method achieves significant improvements on two challenging benchmarks, i.e., UCF-Crime and XD-Violence.
arxiv情報
著者 | Yujiang Pu,Xiaoyu Wu |
発行日 | 2022-08-11 04:27:33+00:00 |
arxivサイト | arxiv_id(pdf) |