要約
近年、単眼画像を用いた3次元知覚は、自律走行への応用が期待され、活発な研究分野となっています。しかし、LiDARを用いた手法と比較すると、検出や追跡を含む単眼での3D知覚の性能は劣ることが多く、LiDARを用いた手法と比較すると、その性能は劣る。我々は系統的な解析により、物体ごとの奥行き推定精度が性能を左右する大きな要因であることを明らかにしました。そこで、我々は、RGBと擬似LiDARという異なる表現と、トラックレットという複数のフレームにまたがる時間情報を組み合わせて、物体ごとの深度推定を強化するマルチレベルフュージョン手法を提案する。提案する融合手法は、Waymo Open Dataset、KITTI detection dataset、KITTI MOT datasetにおいて、オブジェクトごとの深度推定で最先端の性能を達成する。さらに、推定された奥行きを融合で拡張された奥行きに置き換えるだけで、検出や追跡などの単眼3D知覚タスクにおいて大幅な改善を達成できることを実証する。
要約(オリジナル)
Monocular image-based 3D perception has become an active research area in recent years owing to its applications in autonomous driving. Approaches to monocular 3D perception including detection and tracking, however, often yield inferior performance when compared to LiDAR-based techniques. Through systematic analysis, we identified that per-object depth estimation accuracy is a major factor bounding the performance. Motivated by this observation, we propose a multi-level fusion method that combines different representations (RGB and pseudo-LiDAR) and temporal information across multiple frames for objects (tracklets) to enhance per-object depth estimation. Our proposed fusion method achieves the state-of-the-art performance of per-object depth estimation on the Waymo Open Dataset, the KITTI detection dataset, and the KITTI MOT dataset. We further demonstrate that by simply replacing estimated depth with fusion-enhanced depth, we can achieve significant improvements in monocular 3D perception tasks, including detection and tracking.
arxiv情報
著者 | Longlong Jing,Ruichi Yu,Henrik Kretzschmar,Kang Li,Charles R. Qi,Hang Zhao,Alper Ayvaci,Xu Chen,Dillon Cower,Yingwei Li,Yurong You,Han Deng,Congcong Li,Dragomir Anguelov |
発行日 | 2022-06-08 03:37:59+00:00 |
arxivサイト | arxiv_id(pdf) |