要約
3D オブジェクト検出における重要な問題の 1 つは、LiDAR センサーに基づく方法と単眼カメラに基づく方法の間の精度の差を減らすことです。
最近提案された擬似ステレオに基づく単眼 3D 検出フレームワークは、コミュニティでかなりの注目を集めています。
しかし、これまでのところ、これら 2 つの問題が既存の手法で発見されています。(1) 単眼奥行き推定と擬似ステレオ検出器を個別にトレーニングする必要がある、(2) 異なるステレオ検出器との互換性が難しい、(3) 全体の計算が大きい、などです。
、推論速度に影響します。
この研究では、数回の反復を使用して右側の情報ピクセルを左側の画像に徐々に配信するシングルビュー拡散モデル (SVDM) を導入することにより、エンドツーエンドの効率的な擬似ステレオ 3D 検出フレームワークを提案します。
SVDM を使用すると、擬似ステレオ 3D 検出パイプライン全体をエンドツーエンドでトレーニングできるようになり、ステレオ検出器のトレーニングから恩恵を受けることができます。
その後、奥行きのないステレオ 3D 検出における SVDM の応用をさらに検討し、最終的なフレームワークはほとんどのステレオ検出器と互換性があります。
KITTI データセット上の複数のベンチマークの中で、新しい最先端のパフォーマンスを達成しました。
要約(オリジナル)
One of the key problems in 3D object detection is to reduce the accuracy gap between methods based on LiDAR sensors and those based on monocular cameras. A recently proposed framework for monocular 3D detection based on Pseudo-Stereo has received considerable attention in the community. However, so far these two problems are discovered in existing practices, including (1) monocular depth estimation and Pseudo-Stereo detector must be trained separately, (2) Difficult to be compatible with different stereo detectors and (3) the overall calculation is large, which affects the reasoning speed. In this work, we propose an end-to-end, efficient pseudo-stereo 3D detection framework by introducing a Single-View Diffusion Model (SVDM) that uses a few iterations to gradually deliver right informative pixels to the left image. SVDM allows the entire pseudo-stereo 3D detection pipeline to be trained end-to-end and can benefit from the training of stereo detectors. Afterwards, we further explore the application of SVDM in depth-free stereo 3D detection, and the final framework is compatible with most stereo detectors. Among multiple benchmarks on the KITTI dataset, we achieve new state-of-the-art performance.
arxiv情報
著者 | Yuguang Shi |
発行日 | 2023-07-05 13:10:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google