要約
ビデオ異常検出(VAD)は、産業監視、セキュリティシステム、交通管制などにおいて、実用性の高い重要なタスクである。我々は、異なる検出要求を考慮せずに正常性を学習する固定構造を採用した従来の教師なしVAD手法とは異なり、異なる程度の異常を柔軟に検出するための設定可能なアーキテクチャとして、空間-時間階層アーキテクチャ(STHA)を設計する。STHAは、ストリームレベル、スタックレベル、ブロックレベルの3つの階層から構成されています。具体的には、正常なパターンを抽出する能力の異なる複数のオートエンコーダーベースのブロックを設計します。そして、スタック内とスタック間の残留リンクを用いて、複雑度に従ってブロックを積み重ね、階層的な正常性を徐々に学習する。また、映像のマルチソース知識を考慮し、スタックからなる2つの並列ストリームを設計することで、映像フレームの空間的正規性とRGB差分の時間的正規性をモデル化する。このように、STHAは、程度の異なる異常を検出するために、階層的に拡大・縮小することで、様々な表現学習能力を提供することができます。異常集合は複雑で束縛されないので、我々のSTHAは人間の検出要求とシーンの履歴で起こった異常の複雑度合いに適応するように検出能力を調整することができる。我々は3つのベンチマークで実験を行い、広範な分析を行い、その結果、我々の方法が最先端の方法と同等の性能を持つことを実証する。さらに、我々のモデルが異なる検出要求に適応するための学習能力をよりバランスよく発揮できることを証明するために、おもちゃのデータセットを設計する。
要約(オリジナル)
Video anomaly detection (VAD) is a vital task with great practical applications in industrial surveillance, security system, and traffic control. Unlike previous unsupervised VAD methods that adopt a fixed structure to learn normality without considering different detection demands, we design a spatial-temporal hierarchical architecture (STHA) as a configurable architecture to flexibly detect different degrees of anomaly. The comprehensive structure of the STHA is delineated into a tripartite hierarchy, encompassing the following tiers: the stream level, the stack level, and the block level. Specifically, we design several auto-encoder-based blocks that possess varying capacities for extracting normal patterns. Then, we stack blocks according to the complexity degrees with both intra-stack and inter-stack residual links to learn hierarchical normality gradually. Considering the multisource knowledge of videos, we also model the spatial normality of video frames and temporal normality of RGB difference by designing two parallel streams consisting of stacks. Thus, STHA can provide various representation learning abilities by expanding or contracting hierarchically to detect anomalies of different degrees. Since the anomaly set is complicated and unbounded, our STHA can adjust its detection ability to adapt to the human detection demands and the complexity degree of anomaly that happened in the history of a scene. We conduct experiments on three benchmarks and perform extensive analysis, and the results demonstrate that our method performs comparablely to the state-of-the-art methods. In addition, we design a toy dataset to prove that our model can better balance the learning ability to adapt to different detection demands.
arxiv情報
著者 | Kai Cheng,Xinhua Zeng,Yang Liu,Tian Wang,Chengxin Pang,Jing Teng,Zhaoyang Xia,Jing Liu |
発行日 | 2023-05-12 09:03:38+00:00 |
arxivサイト | arxiv_id(pdf) |