Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges

要約

監視映像は日常生活に不可欠な要素であり、特に公共のセキュリティにおいて様々な重要な用途がある。しかし、現在の監視ビデオタスクは、主に異常事象の分類と位置特定に焦点を当てている。既存の手法は、十分な性能は得られているものの、満足な意味理解を得られないまま、事前に定義された事象の検出と分類に限られている。この問題に対処するために、我々は監視ビデオと言語理解という新しい研究方向を提案し、最初のマルチモーダル監視ビデオデータセットを構築する。我々は、実世界の監視映像データセットUCF-Crimeに、きめ細かなイベント内容とタイミングを手動でアノテーションする。我々の新しいアノテーションデータセットであるUCA(UCF-Crime Annotation)には、23,542のセンテンスが含まれ、平均の長さは20ワードであり、アノテーションされたビデオは110.7時間と長い。さらに、この新しく作成されたデータセットを用いて、4つのマルチモーダルタスクに対するSOTAモデルのベンチマークを行い、監視ビデオと言語理解の新たなベースラインとする。実験を通して、我々は、以前に公開されたデータセットで使用された主流のモデルが、監視カメラ映像では性能が低いことを発見し、これは監視カメラ映像と言語理解における新たな課題を示している。我々のUCAの有効性を検証するために、マルチモーダル異常検知の実験を行った。その結果、我々のマルチモーダル監視学習が、従来の異常検知タスクの性能を改善できることが実証された。全ての実験は、監視AIを進歩させるためにこのデータセットを構築する必要性を強調している。我々のデータセットへのリンクはhttps://xuange923.github.io/Surveillance-Video-Understanding。

要約(オリジナル)

Surveillance videos are an essential component of daily life with various critical applications, particularly in public security. However, current surveillance video tasks mainly focus on classifying and localizing anomalous events. Existing methods are limited to detecting and classifying the predefined events with unsatisfactory semantic understanding, although they have obtained considerable performance. To address this issue, we propose a new research direction of surveillance video-and-language understanding, and construct the first multimodal surveillance video dataset. We manually annotate the real-world surveillance dataset UCF-Crime with fine-grained event content and timing. Our newly annotated dataset, UCA (UCF-Crime Annotation), contains 23,542 sentences, with an average length of 20 words, and its annotated videos are as long as 110.7 hours. Furthermore, we benchmark SOTA models for four multimodal tasks on this newly created dataset, which serve as new baselines for surveillance video-and-language understanding. Through our experiments, we find that mainstream models used in previously publicly available datasets perform poorly on surveillance video, which demonstrates the new challenges in surveillance video-and-language understanding. To validate the effectiveness of our UCA, we conducted experiments on multimodal anomaly detection. The results demonstrate that our multimodal surveillance learning can improve the performance of conventional anomaly detection tasks. All the experiments highlight the necessity of constructing this dataset to advance surveillance AI. The link to our dataset is provided at: https://xuange923.github.io/Surveillance-Video-Understanding.

arxiv情報

著者 Tongtong Yuan,Xuange Zhang,Kun Liu,Bo Liu,Chen Chen,Jian Jin,Zhenzhen Jiao
発行日 2023-12-04 13:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク