MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark

要約

マルチターゲット マルチカメラ追跡は、複数のカメラからのビデオ ストリームを使用して個人を特定し、長期にわたって追跡することを含む重要なタスクです。
このタスクは、視覚監視、群衆行動分析、異常検出など、さまざまな分野で実用化されています。
ただし、データの収集とラベル付けの難しさとコストのため、このタスク用の既存のデータセットは、制御されたカメラ ネットワーク設定内で合成的に生成されるか人工的に構築されるため、現実世界のダイナミクスをモデル化し、多様なカメラ構成に一般化する能力が制限されます。
この問題に対処するために、キャンパスと工場という 2 つの異なる環境で、さまざまな時間、天候、季節条件にわたって 16 台のマルチモーダル カメラで撮影された長いビデオ シーケンスを含む、現実世界の大規模データセットである MTMMC を紹介します。
このデータセットは、現実世界の多様な複雑さの下でマルチカメラ トラッキングを研究するための挑戦的なテストベッドを提供し、空間的に位置合わせされ、時間的に同期された RGB カメラとサーマル カメラの追加入力モダリティを含み、マルチカメラ トラッキングの精度を向上させます。
MTMMC は既存のデータセットのスーパーセットであり、人物の検出、再識別、複数のオブジェクトの追跡などの独立した分野に役立ちます。
このデータセットに関するベースラインと新しい学習設定を提供し、将来の研究のための参照スコアを設定します。
データセット、モデル、テスト サーバーは一般に公開されます。

要約(オリジナル)

Multi-target multi-camera tracking is a crucial task that involves identifying and tracking individuals over time using video streams from multiple cameras. This task has practical applications in various fields, such as visual surveillance, crowd behavior analysis, and anomaly detection. However, due to the difficulty and cost of collecting and labeling data, existing datasets for this task are either synthetically generated or artificially constructed within a controlled camera network setting, which limits their ability to model real-world dynamics and generalize to diverse camera configurations. To address this issue, we present MTMMC, a real-world, large-scale dataset that includes long video sequences captured by 16 multi-modal cameras in two different environments – campus and factory – across various time, weather, and season conditions. This dataset provides a challenging test-bed for studying multi-camera tracking under diverse real-world complexities and includes an additional input modality of spatially aligned and temporally synchronized RGB and thermal cameras, which enhances the accuracy of multi-camera tracking. MTMMC is a super-set of existing datasets, benefiting independent fields such as person detection, re-identification, and multiple object tracking. We provide baselines and new learning setups on this dataset and set the reference scores for future studies. The datasets, models, and test server will be made publicly available.

arxiv情報

著者 Sanghyun Woo,Kwanyong Park,Inkyu Shin,Myungchul Kim,In So Kweon
発行日 2024-03-29 15:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク