Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection

要約

弱監視ビデオ異常検出 (WSVAD) は困難なタスクです。
弱いラベルに基づいてきめの細かい擬似ラベルを生成し、分類器を自己学習させることは、現時点では有望な解決策です。
しかし、既存の方法はRGB視覚モダリティのみを使用し、カテゴリテキスト情報の利用が無視されているため、より正確な疑似ラベルの生成が制限され、自己学習のパフォーマンスに影響を与えます。
この論文では、イベント記述に基づく手動ラベル付けプロセスに触発され、WSVAD 用の正規性ガイダンス付きテキスト プロンプト (TPWNG) に基づく新しい疑似ラベル生成および自己トレーニング フレームワークを提案します。
私たちのアイデアは、ビデオ イベントの説明テキストと対応するビデオ フレームを位置合わせして疑似ラベルを生成するための対照的言語画像事前トレーニング (CLIP) モデルの豊富な言語視覚知識を転送することです。
具体的には、最初に 2 つのランキング損失と分布不一致損失を設計することで、ドメイン適応のために CLIP を微調整します。
さらに、ビデオイベント説明テキストとビデオフレームのマッチング精度をさらに向上させるために、正規性の視覚プロンプトを利用した学習可能なテキストプロンプトメカニズムを提案します。
次に、正規性ガイダンスに基づいて、信頼できるフレームレベルの擬似ラベルを推測する擬似ラベル生成モジュールを設計します。
最後に、さまざまなビデオ イベントの時間的依存関係をより柔軟かつ正確に学習するための時間コンテキスト自己適応学習モジュールを導入します。
広範な実験により、私たちの手法が 2 つのベンチマーク データセット、UCF-Crime と XD-Viole で最先端のパフォーマンスを達成することが示されました。

要約(オリジナル)

Weakly supervised video anomaly detection (WSVAD) is a challenging task. Generating fine-grained pseudo-labels based on weak-label and then self-training a classifier is currently a promising solution. However, since the existing methods use only RGB visual modality and the utilization of category text information is neglected, thus limiting the generation of more accurate pseudo-labels and affecting the performance of self-training. Inspired by the manual labeling process based on the event description, in this paper, we propose a novel pseudo-label generation and self-training framework based on Text Prompt with Normality Guidance (TPWNG) for WSVAD. Our idea is to transfer the rich language-visual knowledge of the contrastive language-image pre-training (CLIP) model for aligning the video event description text and corresponding video frames to generate pseudo-labels. Specifically, We first fine-tune the CLIP for domain adaptation by designing two ranking losses and a distributional inconsistency loss. Further, we propose a learnable text prompt mechanism with the assist of a normality visual prompt to further improve the matching accuracy of video event description text and video frames. Then, we design a pseudo-label generation module based on the normality guidance to infer reliable frame-level pseudo-labels. Finally, we introduce a temporal context self-adaptive learning module to learn the temporal dependencies of different video events more flexibly and accurately. Extensive experiments show that our method achieves state-of-the-art performance on two benchmark datasets, UCF-Crime and XD-Viole

arxiv情報

著者 Zhiwei Yang,Jing Liu,Peng Wu
発行日 2024-04-12 15:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク