要約
インテリジェントなトラフィック ルーティングや事故防止などのスマート シティ アプリケーションは、正確な車両の位置特定と追跡のためにコンピューター ビジョン手法に依存しています。
正確にラベル付けされたデータが不足しているため、複数のカメラから 3D で車両を検出して追跡することは困難です。
複数のオーバーラップおよび非オーバーラップ カメラ ビューで複数の車両を追跡およびセグメンテーションするための大規模な合成データセットを提示します。
2D バウンディング ボックスの追跡グラウンド トゥルースのみを提供する既存のデータセットとは異なり、当社のデータセットには、カメラ座標とワールド座標、深度推定、インスタンス、セマンティック、パノプティック セグメンテーションの 3D バウンディング ボックスの完全なラベルが追加で含まれています。
このデータセットは、64 の多様な昼、雨、夜明け、夜のシーンで 340 台のカメラから記録された 17 時間のラベル付きビデオ素材で構成されており、これまでのところマルチターゲット マルチカメラ トラッキングの最も広範なデータセットとなっています。
検出、車両の再識別、シングルカメラおよびマルチカメラ追跡のベースラインを提供します。
コードとデータは公開されています。
要約(オリジナル)
Smart City applications such as intelligent traffic routing or accident prevention rely on computer vision methods for exact vehicle localization and tracking. Due to the scarcity of accurately labeled data, detecting and tracking vehicles in 3D from multiple cameras proves challenging to explore. We present a massive synthetic dataset for multiple vehicle tracking and segmentation in multiple overlapping and non-overlapping camera views. Unlike existing datasets, which only provide tracking ground truth for 2D bounding boxes, our dataset additionally contains perfect labels for 3D bounding boxes in camera- and world coordinates, depth estimation, and instance, semantic and panoptic segmentation. The dataset consists of 17 hours of labeled video material, recorded from 340 cameras in 64 diverse day, rain, dawn, and night scenes, making it the most extensive dataset for multi-target multi-camera tracking so far. We provide baselines for detection, vehicle re-identification, and single- and multi-camera tracking. Code and data are publicly available.
arxiv情報
著者 | Fabian Herzog,Junpeng Chen,Torben Teepe,Johannes Gilg,Stefan Hörmann,Gerhard Rigoll |
発行日 | 2022-08-30 11:36:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google