要約
単眼3D車両定位は、高度道路交通システム(ITS)や協調型車両インフラシステム(CVIS)において重要なタスクであり、通常、単眼3D車両検出により実現される。しかし、単眼カメラでは、固有の撮像機構により奥行き情報を直接取得することができないため、単眼3Dタスクはより困難なものとなっています。現在の単眼3D車両検出手法の多くは、2D検出器と追加の幾何学モジュールを活用しているため、効率が低下している。本論文では、2次元検出器を用いずに、画像空間におけるセントロイドと8頂点、および3次元バウンディングボックスの次元を直接予測する、路上の単眼カメラのための3次元車両定位ネットワークCenterLoc3Dを提案する。3次元車両定位の精度を向上させるために、CenterLoc3Dに組み込まれた重み付き融合モジュールと空間制約を用いた損失を提案する。まず、2D画像空間と3D世界空間間の変換行列は、カメラキャリブレーションによって解決される。次に、CenterLoc3Dにより、車両の種類、セントロイド、8頂点、3次元車両バウンディングボックスの次元を求める。最後に、カメラキャリブレーションとCenterLoc3Dにより、3次元世界空間におけるセントロイドを求め、3次元車両位置決めを行うことができる。我々の知る限り、これは路上の単眼カメラに対する3次元車両位置決めの最初の適用例である。また、このアプリケーションのために、データセット(SVLD-3D)、アノテーションツール(LabelImg-3D)、評価指標を含むベンチマークを提案する。実験的な検証を通じて、提案手法は高い精度とリアルタイム性を実現する。(字数制限あり、詳細は論文をご覧ください)
要約(オリジナル)
Monocular 3D vehicle localization is an important task in Intelligent Transportation System (ITS) and Cooperative Vehicle Infrastructure System (CVIS), which is usually achieved by monocular 3D vehicle detection. However, depth information cannot be obtained directly by monocular cameras due to the inherent imaging mechanism, resulting in more challenging monocular 3D tasks. Most of the current monocular 3D vehicle detection methods leverage 2D detectors and additional geometric modules, which reduces the efficiency. In this paper, we propose a 3D vehicle localization network CenterLoc3D for roadside monocular cameras, which directly predicts centroid and eight vertexes in image space, and the dimension of 3D bounding boxes without 2D detectors. To improve the precision of 3D vehicle localization, we propose a weighted-fusion module and a loss with spatial constraints embedded in CenterLoc3D. Firstly, the transformation matrix between 2D image space and 3D world space is solved by camera calibration. Secondly, vehicle type, centroid, eight vertexes, and the dimension of 3D vehicle bounding boxes are obtained by CenterLoc3D. Finally, centroid in 3D world space can be obtained by camera calibration and CenterLoc3D for 3D vehicle localization. To the best of our knowledge, this is the first application of 3D vehicle localization for roadside monocular cameras. Hence, we also propose a benchmark for this application including a dataset (SVLD-3D), an annotation tool (LabelImg-3D), and evaluation metrics. Through experimental validation, the proposed method achieves high accuracy and real-time performance. (limited words, please see the article for more details)
arxiv情報
著者 | Tang Xinyao,Wang Wei,Song Huansheng,Zhao Chunhui |
発行日 | 2023-01-05 10:19:51+00:00 |
arxivサイト | arxiv_id(pdf) |