Bounding Boxes and Probabilistic Graphical Models: Video Anomaly Detection Simplified

要約

この研究では、ビデオ異常検出のタスクをオブジェクト境界ボックスの確率的分析として定式化します。
私たちは、シーン内の異常なイベントを首尾よく識別するには、境界ボックスのみを介したオブジェクトの表現で十分であると仮説を立てています。
このアプローチの暗黙の価値は、オブジェクトの匿名化の強化、モデルのトレーニングの高速化、および計算リソースの削減です。
これは、カメラなどのエッジ デバイスで実行されるビデオ監視内のアプリケーションに特にメリットをもたらします。
私たちは人間の推論に基づいてモデルを設計しており、人間が理解できる言葉でモデルの出力を説明するのに適しています。
一方、第 11 世代インテル Core i9 プロセッサーでは、最も遅いモデルのトレーニングは 7 秒未満です。
私たちのアプローチは、従来技術と比較して問題特徴空間の大幅な縮小を構成しますが、これがパフォーマンスの低下をもたらさないことを示しています。私たちが報告する結果は、ベンチマーク データセット CUHK Avenue および ShanghaiTech で非常に競争力があり、それを大幅に上回っています。
StreetScene に関する最新の最先端の結果。これまでのところ、最も困難な VAD データセットであることが証明されています。

要約(オリジナル)

In this study, we formulate the task of Video Anomaly Detection as a probabilistic analysis of object bounding boxes. We hypothesize that the representation of objects via their bounding boxes only, can be sufficient to successfully identify anomalous events in a scene. The implied value of this approach is increased object anonymization, faster model training and fewer computational resources. This can particularly benefit applications within video surveillance running on edge devices such as cameras. We design our model based on human reasoning which lends itself to explaining model output in human-understandable terms. Meanwhile, the slowest model trains within less than 7 seconds on a 11th Generation Intel Core i9 Processor. While our approach constitutes a drastic reduction of problem feature space in comparison with prior art, we show that this does not result in a reduction in performance: the results we report are highly competitive on the benchmark datasets CUHK Avenue and ShanghaiTech, and significantly exceed on the latest State-of-the-Art results on StreetScene, which has so far proven to be the most challenging VAD dataset.

arxiv情報

著者 Mia Siemon,Thomas B. Moeslund,Barry Norton,Kamal Nasrollahi
発行日 2024-07-08 14:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク