要約
万引きは小売部門にとって費用のかかる問題のままですが、ほとんどが人間の監視に基づいている従来の監視システムは、依然としてほとんど効果がなく、万引きは約2%しか逮捕されていません。
既存のAIベースのアプローチは、プライバシーの懸念を引き起こすピクセルレベルのビデオ分析に依存しており、環境の変動に敏感であり、重要な計算リソースを要求します。
これらの制限に対処するために、生ビデオではなくポーズシーケンスを分析することで万引きを検出する新しい変圧器ベースのモデルであるShopformerを紹介します。
ポーズシーケンスを効率的な変圧器処理のためにコンパクトな埋め込みに変換するカスタムトークン化戦略を提案します。
私たちの知る限り、これは万引き検出のための最初のポーズシーケンスベースのトランスモデルです。
現実世界のポーズデータで評価されたこの方法は、最先端の異常検出モデルよりも優れており、リアルタイムの小売監視のためのプライバシーを提供し、スケーラブルなソリューションを提供します。
この作業のコードベースは、https://github.com/tecsar-uncc/shopformerで入手できます。
要約(オリジナル)
Shoplifting remains a costly issue for the retail sector, but traditional surveillance systems, which are mostly based on human monitoring, are still largely ineffective, with only about 2% of shoplifters being arrested. Existing AI-based approaches rely on pixel-level video analysis which raises privacy concerns, is sensitive to environmental variations, and demands significant computational resources. To address these limitations, we introduce Shopformer, a novel transformer-based model that detects shoplifting by analyzing pose sequences rather than raw video. We propose a custom tokenization strategy that converts pose sequences into compact embeddings for efficient transformer processing. To the best of our knowledge, this is the first pose-sequence-based transformer model for shoplifting detection. Evaluated on real-world pose data, our method outperforms state-of-the-art anomaly detection models, offering a privacy-preserving, and scalable solution for real-time retail surveillance. The code base for this work is available at https://github.com/TeCSAR-UNCC/Shopformer.
arxiv情報
著者 | Narges Rashvand,Ghazal Alinezhad Noghre,Armin Danesh Pazho,Babak Rahimi Ardabili,Hamed Tabkhi |
発行日 | 2025-04-28 16:43:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google