要約
近年、統一されたマルチモーダルモデルを用いて開発された暴力検知システムが大きな成功を収め、広く注目を集めている。しかし、これらのシステムのほとんどは、ブラックボックスモデルとしての解釈可能性の欠如と、分類または検索機能のみを提供する限定された機能性という2つの重大な課題に直面している。これらの課題に対処するため、本論文では、スリーインワン(TIO)システムと呼ばれる、解釈可能な新しい暴力検知システムを提案する。TIOシステムは知識グラフ(KG)とグラフ注意ネットワーク(GAT)を統合し、検出、検索、説明という3つの中核機能を提供する。具体的には、このシステムは、潜在的な暴力行為を含むビデオについて、大規模言語モデル(LLM)によって生成されたテキスト説明とともに各ビデオフレームを処理する。知識グラフを構築するための高次元埋め込みを生成するためにImageBindを採用し、推論にGATを使用し、ビデオ埋め込み特徴を抽出するために軽量の時系列モジュールを適用する。最後のステップでは、分類器とレトリーバーを接続し、多機能な出力を実現する。KGの解釈可能性により、システムは各出力の背後にある推論プロセスを検証することができる。さらに、本論文では、TIOシステムのリソース消費を削減し、効率を高めるためのいくつかの軽量化手法を紹介する。XD-ViolenceデータセットとUCF-Crimeデータセットで行った広範な実験により、提案システムの有効性が検証された。さらに、ケーススタディにより、傍観者の数が増えると暴力行為の発生が減少する傾向があるという興味深い現象が明らかになった。
要約(オリジナル)
Recently, violence detection systems developed using unified multimodal models have achieved significant success and attracted widespread attention. However, most of these systems face two critical challenges: the lack of interpretability as black-box models and limited functionality, offering only classification or retrieval capabilities. To address these challenges, this paper proposes a novel interpretable violence detection system, termed the Three-in-One (TIO) System. The TIO system integrates knowledge graphs (KG) and graph attention networks (GAT) to provide three core functionalities: detection, retrieval, and explanation. Specifically, the system processes each video frame along with text descriptions generated by a large language model (LLM) for videos containing potential violent behavior. It employs ImageBind to generate high-dimensional embeddings for constructing a knowledge graph, uses GAT for reasoning, and applies lightweight time series modules to extract video embedding features. The final step connects a classifier and retriever for multi-functional outputs. The interpretability of KG enables the system to verify the reasoning process behind each output. Additionally, the paper introduces several lightweight methods to reduce the resource consumption of the TIO system and enhance its efficiency. Extensive experiments conducted on the XD-Violence and UCF-Crime datasets validate the effectiveness of the proposed system. A case study further reveals an intriguing phenomenon: as the number of bystanders increases, the occurrence of violent behavior tends to decrease.
arxiv情報
著者 | Wen-Dong Jiang,Chih-Yung Chang,Diptendu Sinha Roy |
発行日 | 2025-02-03 05:23:40+00:00 |
arxivサイト | arxiv_id(pdf) |