EVAL: Explainable Video Anomaly Localization

要約

システムが下す決定について人間が理解できる理由を可能にする、単一シーンのビデオ異常のローカリゼーションのための新しいフレームワークを開発します。
最初にオブジェクトとその動きの一般的な表現を (ディープ ネットワークを使用して) 学習し、次にこれらの表現を使用して、特定のシーンの高レベルの位置依存モデルを構築します。
このモデルは、同じシーンの新しいビデオの異常を検出するために使用できます。
重要なのは、私たちのアプローチが説明可能であることです。私たちの高レベルの外観と動きの特徴は、ビデオのどの部分も正常または異常として分類される理由について、人間が理解できる理由を提供できます。
標準的なビデオ異常検出データセット (Street Scene、CUHK Avenue、ShanghaiTech、UCSD Ped1、Ped2) で実験を行い、以前の最先端技術に比べて大幅な改善を示しています。

要約(オリジナル)

We develop a novel framework for single-scene video anomaly localization that allows for human-understandable reasons for the decisions the system makes. We first learn general representations of objects and their motions (using deep networks) and then use these representations to build a high-level, location-dependent model of any particular scene. This model can be used to detect anomalies in new videos of the same scene. Importantly, our approach is explainable – our high-level appearance and motion features can provide human-understandable reasons for why any part of a video is classified as normal or anomalous. We conduct experiments on standard video anomaly detection datasets (Street Scene, CUHK Avenue, ShanghaiTech and UCSD Ped1, Ped2) and show significant improvements over the previous state-of-the-art.

arxiv情報

著者 Ashish Singh,Michael J. Jones,Erik Learned-Miller
発行日 2022-12-15 15:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク