Interleaving One-Class and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video Anomaly Detection

要約

ビデオ異常検出 (VAD) は、1 クラス分類 (OCC) と弱教師あり学習 (WS) の設定の下で広範囲に研究されていますが、どちらも人間が注釈を付けた手間のかかる正常/異常ラベルを必要とします。
この論文では、OCC と WS を統合したトレーニング フレームワークに統合することにより、ラベルに依存しない教師なし VAD (UVAD) を研究します。
具体的には、OCC を加重 OCC (wOCC) に拡張し、2 つのモデルが相互に疑似ラベルを自動的に生成する wOCC-WS インターリーブ トレーニング モジュールを提案します。
この組み合わせを効果的にするには 2 つの課題に直面します。 (1) 擬似ラベルの必然的なランダム性により、トレーニング プロセス中にモデルのパフォーマンスが時々変動します。
(2) 擬似ラベルを分割するにはしきい値が必要であり、トレーニングはユーザー介入の精度に依存します。
最初の問題については、ハード 0/1 ラベルでトレーニングされた OCC の代わりに、ソフト ラベルを必要とする wOCC を使用することを提案します。これは、ソフト ラベルがさまざまなトレーニング サイクルを通じて高い一貫性を示すのに対し、ハード ラベルは突然変化する傾向があるためです。
2 番目の問題については、インターリーブ トレーニング モジュールを複数回繰り返します。その間に、大まかなしきい値を比較的最適なしきい値まで段階的に調整できる適応しきい値処理戦略を提案します。これにより、ユーザー インタラクションの影響が軽減されます。
OCC および WS メソッドを使用して UVAD メソッドを構築する利点は、最新の OCC または WS モデルをフレームワークに組み込めることです。
実験により、提案された UVAD フレームワークの有効性が実証されます。

要約(オリジナル)

Video Anomaly Detection (VAD) has been extensively studied under the settings of One-Class Classification (OCC) and Weakly-Supervised learning (WS), which however both require laborious human-annotated normal/abnormal labels. In this paper, we study Unsupervised VAD (UVAD) that does not depend on any label by combining OCC and WS into a unified training framework. Specifically, we extend OCC to weighted OCC (wOCC) and propose a wOCC-WS interleaving training module, where the two models automatically generate pseudo-labels for each other. We face two challenges to make the combination effective: (1) Models’ performance fluctuates occasionally during the training process due to the inevitable randomness of the pseudo labels. (2) Thresholds are needed to divide pseudo labels, making the training depend on the accuracy of user intervention. For the first problem, we propose to use wOCC requiring soft labels instead of OCC trained with hard zero/one labels, as soft labels exhibit high consistency throughout different training cycles while hard labels are prone to sudden changes. For the second problem, we repeat the interleaving training module multiple times, during which we propose an adaptive thresholding strategy that can progressively refine a rough threshold to a relatively optimal threshold, which reduces the influence of user interaction. A benefit of employing OCC and WS methods to compose a UVAD method is that we can incorporate the most recent OCC or WS model into our framework. Experiments demonstrate the effectiveness of the proposed UVAD framework.

arxiv情報

著者 Yongwei Nie,Hao Huang,Chengjiang Long,Qing Zhang,Pradipta Maji,Hongmin Cai
発行日 2024-09-30 14:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク