要約
自動運転の認識タスクは、物体検出、セマンティック セグメンテーション、インスタンス セグメンテーション、および物体追跡の主要センサーとしてカメラに大きく依存しています。
ただし、カメラでキャプチャされた RGB 画像には深度情報が欠如しているため、3D 検出タスクでは大きな課題となります。
この欠落データを補うために、LIDAR や RADAR などのマッピング センサーが正確な 3D オブジェクト検出に使用されます。
マルチセンサー モデルは精度が高いにもかかわらず、高価であり、高い計算能力を必要とします。
対照的に、単眼 3D 物体検出モデルはますます人気が高まっており、より速く、より安価で、実装が簡単な 3D 検出ソリューションを提供します。
このペーパーでは、空間グリッドを利用してシーン内のオブジェクトをマッピングする、MonoNext と呼ばれる別のマルチタスク学習アプローチを紹介します。
MonoNext は、ConvNext ネットワークに基づく直接的なアプローチを採用しており、3D バウンディング ボックスの注釈付きデータのみが必要です。
KITTI データセットを使用した実験では、MonoNext は最先端のアプローチに匹敵する高精度と競争力のあるパフォーマンスを達成しました。
さらに、MonoNext はさらに多くの学習データを追加することで、MonoNext を超え、より高い精度を達成しました。
要約(オリジナル)
Autonomous driving perception tasks rely heavily on cameras as the primary sensor for Object Detection, Semantic Segmentation, Instance Segmentation, and Object Tracking. However, RGB images captured by cameras lack depth information, which poses a significant challenge in 3D detection tasks. To supplement this missing data, mapping sensors such as LIDAR and RADAR are used for accurate 3D Object Detection. Despite their significant accuracy, the multi-sensor models are expensive and require a high computational demand. In contrast, Monocular 3D Object Detection models are becoming increasingly popular, offering a faster, cheaper, and easier-to-implement solution for 3D detections. This paper introduces a different Multi-Tasking Learning approach called MonoNext that utilizes a spatial grid to map objects in the scene. MonoNext employs a straightforward approach based on the ConvNext network and requires only 3D bounding box annotated data. In our experiments with the KITTI dataset, MonoNext achieved high precision and competitive performance comparable with state-of-the-art approaches. Furthermore, by adding more training data, MonoNext surpassed itself and achieved higher accuracies.
arxiv情報
著者 | Marcelo Eduardo Pederiva,José Mario De Martino,Alessandro Zimmer |
発行日 | 2023-08-01 15:15:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google