要約
ビデオ レベルのラベルのみを使用した (つまり、監視が弱い) 監視システムでのビデオ異常の検出は困難です。
これは、(i) 現実世界のシナリオにおける微妙で鋭い時空間手がかりで構成される人間とシーンベースの異常の複雑な統合、(ii) 弱い監視下での通常インスタンスと異常インスタンス間の非最適化によるものです。
この論文では、解離的な方法で微妙な手がかりと強い手がかりの両方をキャプチャすることにより、識別表現を学習するヒューマンシーンネットワークを提案します。
さらに、ヒューマンシーンネットワークを効果的に最適化するために、ビデオレベルのラベルから疑似時間注釈を動的に計算する自己修正損失も提案されています。
自己修正損失で最適化された提案されたヒューマン シーン ネットワークは、公開されている 3 つのデータセット、つまり UCF-Crime、ShanghaiTech、IITB-Corridor で検証されており、考慮された 6 つのシナリオのうち 5 つでは、最近報告された最先端のアプローチよりも優れています。
要約(オリジナル)
Video anomaly detection in surveillance systems with only video-level labels (i.e. weakly-supervised) is challenging. This is due to, (i) the complex integration of human and scene based anomalies comprising of subtle and sharp spatio-temporal cues in real-world scenarios, (ii) non-optimal optimization between normal and anomaly instances under weak supervision. In this paper, we propose a Human-Scene Network to learn discriminative representations by capturing both subtle and strong cues in a dissociative manner. In addition, a self-rectifying loss is also proposed that dynamically computes the pseudo temporal annotations from video-level labels for optimizing the Human-Scene Network effectively. The proposed Human-Scene Network optimized with self-rectifying loss is validated on three publicly available datasets i.e. UCF-Crime, ShanghaiTech and IITB-Corridor, outperforming recently reported state-of-the-art approaches on five out of the six scenarios considered.
arxiv情報
著者 | Snehashis Majhi,Rui Dai,Quan Kong,Lorenzo Garattoni,Gianpiero Francesca,Francois Bremond |
発行日 | 2023-01-19 07:26:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google