Attribute-based Representations for Accurate and Interpretable Video Anomaly Detection

要約

ビデオ異常検出 (VAD) は、多くの実用的なアプリケーションを持つ挑戦的なコンピューター ビジョン タスクです。
異常は本質的にあいまいであるため、ユーザーがシステムの決定の背後にある理由を理解して、その理由が正しいかどうかを判断することが不可欠です。
このホワイト ペーパーでは、属性ベースの表現を使用して、VAD の精度と解釈可能性の境界を押し広げるシンプルだが非常に効果的な方法を提案します。
私たちの方法は、速度とポーズによってすべてのオブジェクトを表します。
異常スコアは、密度ベースのアプローチを使用して計算されます。
驚くべきことに、最大かつ最も複雑な VAD データセットである ShanghaiTech で最先端のパフォーマンスを達成するには、この単純な表現で十分であることがわかりました。
解釈可能な属性ベースの表現を暗黙的で深い表現と組み合わせることで、Ped2、Avenue、ShanghaiTech でそれぞれ 99.1\%、93.3\%$、85.9\%$ AUROC という最先端のパフォーマンスが得られます。
私たちの方法は正確で、解釈可能で、実装が簡単です。

要約(オリジナル)

Video anomaly detection (VAD) is a challenging computer vision task with many practical applications. As anomalies are inherently ambiguous, it is essential for users to understand the reasoning behind a system’s decision in order to determine if the rationale is sound. In this paper, we propose a simple but highly effective method that pushes the boundaries of VAD accuracy and interpretability using attribute-based representations. Our method represents every object by its velocity and pose. The anomaly scores are computed using a density-based approach. Surprisingly, we find that this simple representation is sufficient to achieve state-of-the-art performance in ShanghaiTech, the largest and most complex VAD dataset. Combining our interpretable attribute-based representations with implicit, deep representation yields state-of-the-art performance with a $99.1\%, 93.3\%$, and $85.9\%$ AUROC on Ped2, Avenue, and ShanghaiTech, respectively. Our method is accurate, interpretable, and easy to implement.

arxiv情報

著者 Tal Reiss,Yedid Hoshen
発行日 2022-12-01 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク