要約
ビデオ異常検出 (VAD) は、コンピューター ビジョンにおける重要ですが困難なタスクです。
すべての異常ケースをモデル化するためのトレーニング サンプルが希少であるため、主な課題が生じます。
したがって、半教師あり異常検出法は、法線のモデル化に重点を置き、正常パターンからの逸脱を測定することで異常を検出するため、より注目を集めています。
通常の動きと外観のモデリングにおけるこれらの方法の目覚ましい進歩にもかかわらず、長期的な動きのモデリングはこれまで効果的に検討されていませんでした。
将来のフレーム予測プロキシ タスクの機能に触発されて、ビデオ異常検出のための新しいプロキシ タスクとして、単一フレームからの将来のビデオ予測タスクを導入します。
この代理タスクにより、より長い動作パターンを学習する際の以前の方法の課題が軽減されます。
さらに、初期および将来の生フレームを対応するセマンティック セグメンテーション マップに置き換えます。これにより、メソッドがオブジェクト クラスを認識するだけでなく、モデルの予測タスクの複雑さが軽減されます。
ベンチマーク データセット (ShanghaiTech、UCSD-Ped1、および UCSD-Ped2) に関する広範な実験により、この方法の有効性と、SOTA 予測ベースの VAD 方法と比較したパフォーマンスの優位性が示されています。
要約(オリジナル)
Video anomaly detection (VAD) is an important but challenging task in computer vision. The main challenge rises due to the rarity of training samples to model all anomaly cases. Hence, semi-supervised anomaly detection methods have gotten more attention, since they focus on modeling normals and they detect anomalies by measuring the deviations from normal patterns. Despite impressive advances of these methods in modeling normal motion and appearance, long-term motion modeling has not been effectively explored so far. Inspired by the abilities of the future frame prediction proxy-task, we introduce the task of future video prediction from a single frame, as a novel proxy-task for video anomaly detection. This proxy-task alleviates the challenges of previous methods in learning longer motion patterns. Moreover, we replace the initial and future raw frames with their corresponding semantic segmentation map, which not only makes the method aware of object class but also makes the prediction task less complex for the model. Extensive experiments on the benchmark datasets (ShanghaiTech, UCSD-Ped1, and UCSD-Ped2) show the effectiveness of the method and the superiority of its performance compared to SOTA prediction-based VAD methods.
arxiv情報
著者 | Mohammad Baradaran,Robert Bergevin |
発行日 | 2023-08-15 14:04:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google