PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization

要約

ビデオ異常検出 (VAD) は、特に異常イベントの予測不可能で頻度の低い性質と、異常イベントが発生する多様で動的な環境により、コンピューター ビジョンに重大な課題をもたらします。
このドメイン内の専門分野である人間中心の VAD は、人間の行動の変化、データの潜在的な偏り、人間の被験者に関連する重大なプライバシーの懸念など、さらなる複雑さに直面しています。
これらの問題により、堅牢かつ一般化可能なモデルの開発が複雑になります。
これらの課題に対処するために、最近の進歩はポーズベースの VAD に焦点を当てています。これは、人間のポーズを高レベルの機能として活用して、プライバシーの懸念を軽減し、外観のバイアスを軽減し、背景の干渉を最小限に抑えます。
このペーパーでは、人間中心のポーズベースの VAD 用に特別に設計された新しいトランスフォーマーベースのアーキテクチャである PoseWatch を紹介します。
PoseWatch は、時間の経過に伴う人間の動きの表現を強化する革新的な時空間ポーズおよび相対ポーズ (ST-PRP) トークン化手法を備えており、これはより広範な人間の行動分析タスクにも有益です。
このアーキテクチャのコアである Unified Encoder Twin Decoders (UETD) トランスフォーマーは、ビデオ データ内の異常な動作の検出を大幅に向上させます。
複数のベンチマーク データセットにわたる広範な評価により、PoseWatch が既存の手法を常に上回っており、ポーズベースの VAD における新しい最先端の技術が確立されていることが実証されています。
この研究は、PoseWatch の有効性を実証するだけでなく、自然言語処理技術とコンピューター ビジョンを統合して人間の行動分析を前進させる可能性も強調しています。

要約(オリジナル)

Video Anomaly Detection (VAD) presents a significant challenge in computer vision, particularly due to the unpredictable and infrequent nature of anomalous events, coupled with the diverse and dynamic environments in which they occur. Human-centric VAD, a specialized area within this domain, faces additional complexities, including variations in human behavior, potential biases in data, and substantial privacy concerns related to human subjects. These issues complicate the development of models that are both robust and generalizable. To address these challenges, recent advancements have focused on pose-based VAD, which leverages human pose as a high-level feature to mitigate privacy concerns, reduce appearance biases, and minimize background interference. In this paper, we introduce PoseWatch, a novel transformer-based architecture designed specifically for human-centric pose-based VAD. PoseWatch features an innovative Spatio-Temporal Pose and Relative Pose (ST-PRP) tokenization method that enhances the representation of human motion over time, which is also beneficial for broader human behavior analysis tasks. The architecture’s core, a Unified Encoder Twin Decoders (UETD) transformer, significantly improves the detection of anomalous behaviors in video data. Extensive evaluations across multiple benchmark datasets demonstrate that PoseWatch consistently outperforms existing methods, establishing a new state-of-the-art in pose-based VAD. This work not only demonstrates the efficacy of PoseWatch but also highlights the potential of integrating Natural Language Processing techniques with computer vision to advance human behavior analysis.

arxiv情報

著者 Ghazal Alinezhad Noghre,Armin Danesh Pazho,Hamed Tabkhi
発行日 2024-08-27 16:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク