要約
ビデオ異常理解(VAU)は、ビデオ内の異常発生を自動的に理解することを目的とし、それにより交通監視や工業生産などの様々なアプリケーションを可能にする。既存のVAUベンチマークが主に異常検出とローカライゼーションに集中しているのに対して、我々はより実用的なことに焦点を当て、以下のような重要な問題を提起している:どのような異常が発生したのか」、「なぜ発生したのか」、「この異常事象はどの程度深刻なのか」。これらの答えを追求するために、我々はCausation Understanding of Video Anomaly (CUVA)の包括的なベンチマークを提示する。具体的には、提案ベンチマークの各インスタンスには、1)異常の種類、開始・終了時刻、イベントの説明、2)異常の原因に関する自然言語による説明、3)異常の影響を反映する自由テキストを含む、異常の「何」「なぜ」「どのように」を示す3つの人間による注釈セットが含まれる。さらに、CUVAに対する人間の嗜好により合致するように設計された新しい評価指標であるMMEvalを導入し、映像異常の根本的な原因と対応する効果を理解する上で、既存のLLMの測定を容易にする。最後に、難易度の高いCUVAのベースラインアプローチとして機能する、プロンプトベースの新しい手法を提案する。我々は、我々の評価指標とプロンプトベースのアプローチの優位性を示すために広範な実験を行った。我々のコードとデータセットはhttps://github.com/fesvhtr/CUVA。
要約(オリジナル)
Video anomaly understanding (VAU) aims to automatically comprehend unusual occurrences in videos, thereby enabling various applications such as traffic surveillance and industrial manufacturing. While existing VAU benchmarks primarily concentrate on anomaly detection and localization, our focus is on more practicality, prompting us to raise the following crucial questions: ‘what anomaly occurred?’, ‘why did it happen?’, and ‘how severe is this abnormal event?’. In pursuit of these answers, we present a comprehensive benchmark for Causation Understanding of Video Anomaly (CUVA). Specifically, each instance of the proposed benchmark involves three sets of human annotations to indicate the ‘what’, ‘why’ and ‘how’ of an anomaly, including 1) anomaly type, start and end times, and event descriptions, 2) natural language explanations for the cause of an anomaly, and 3) free text reflecting the effect of the abnormality. In addition, we also introduce MMEval, a novel evaluation metric designed to better align with human preferences for CUVA, facilitating the measurement of existing LLMs in comprehending the underlying cause and corresponding effect of video anomalies. Finally, we propose a novel prompt-based method that can serve as a baseline approach for the challenging CUVA. We conduct extensive experiments to show the superiority of our evaluation metric and the prompt-based approach. Our code and dataset are available at https://github.com/fesvhtr/CUVA.
arxiv情報
著者 | Hang Du,Sicheng Zhang,Binzhu Xie,Guoshun Nan,Jiayang Zhang,Junrui Xu,Hangyu Liu,Sicong Leng,Jiangming Liu,Hehe Fan,Dajiu Huang,Jing Feng,Linli Chen,Can Zhang,Xuhuan Li,Hao Zhang,Jianhang Chen,Qimei Cui,Xiaofeng Tao |
発行日 | 2024-05-06 14:57:50+00:00 |
arxivサイト | arxiv_id(pdf) |