A Benchmark for Crime Surveillance Video Analysis with Large Models

要約

監視ビデオの異常分析は、コンピュータービジョンにおける重要なトピックです。
近年、マルチモーダル大手言語モデル(MLLM)は、さまざまなドメインでタスク固有のモデルよりも優れています。
MLLMは特に用途が広いものの、MLLMスタイルのQASとモデルのオープンエンドテキスト応答を評価するための効率的なアルゴリズムを提供していないこのフィールドの時代遅れのベンチマークのために、異常な概念と詳細を理解する能力が十分に研究されていません。
このギャップを埋めるために、UCVLとして示された大規模なモデルを使用して、1,829個のビデオとUCF犯罪およびUCF犯罪注釈データセットからの再編成注釈を含む、犯罪監視ビデオ分析のベンチマークを提案します。
6種類の質問を設計し、多様なQAペアを生成します。
次に、詳細な指示を作成し、正確な評価のためにOpenAIのGPT-4Oを使用します。
0.5Bから40Bのパラメーターの範囲の8つの一般的なMLLMをベンチマークし、結果がこのベンチの信頼性を示しています。
さらに、UCVLのトレーニングセットでllava-nevisionをFintuneします。
この改善は、ビデオの異常分析のためにデータの高品質を検証します。

要約(オリジナル)

Anomaly analysis in surveillance videos is a crucial topic in computer vision. In recent years, multimodal large language models (MLLMs) have outperformed task-specific models in various domains. Although MLLMs are particularly versatile, their abilities to understand anomalous concepts and details are insufficiently studied because of the outdated benchmarks of this field not providing MLLM-style QAs and efficient algorithms to assess the model’s open-ended text responses. To fill this gap, we propose a benchmark for crime surveillance video analysis with large models denoted as UCVL, including 1,829 videos and reorganized annotations from the UCF-Crime and UCF-Crime Annotation datasets. We design six types of questions and generate diverse QA pairs. Then we develop detailed instructions and use OpenAI’s GPT-4o for accurate assessment. We benchmark eight prevailing MLLMs ranging from 0.5B to 40B parameters, and the results demonstrate the reliability of this bench. Moreover, we finetune LLaVA-OneVision on UCVL’s training set. The improvement validates our data’s high quality for video anomaly analysis.

arxiv情報

著者 Haoran Chen,Dong Yi,Moyan Cao,Chensen Huang,Guibo Zhu,Jinqiao Wang
発行日 2025-02-13 13:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク