Detection-segmentation convolutional neural network for autonomous vehicle perception

要約

物体検出とセグメンテーションは、自律車両認識システムの 2 つのコア モジュールです。
計算の複雑さを軽減しながら、高効率と低遅延を実現する必要があります。
現在、最も一般的に使用されているアルゴリズムはディープ ニューラル ネットワークに基づいており、高効率を保証しますが、高性能のコンピューティング プラットフォームを必要とします。
自律走行車、つまり自動車だけでなくドローンの場合、コンピューティング能力が限られた組み込みプラットフォームを使用する必要があるため、上記の要件を満たすことが困難になります。
ネットワークの複雑さの軽減は、適切なアーキテクチャ、表現 (数値精度の低下、量子化、枝刈り)、およびコンピューティング プラットフォームを使用することで実現できます。
この論文では、最初の要素、つまり認識システムのコンポーネントとしていわゆる検出セグメンテーション ネットワークを使用することに焦点を当てます。
私たちは、選択したオブジェクト (歩行者、信号機、障害物) の検出と組み合わせて、走行可能エリアと道路標示をセグメント化するタスクを検討しました。
文献に記載されている 3 つの異なるアーキテクチャ (MultiTask V3、HybridNets、YOLOP) のパフォーマンスを比較しました。
私たちは、走行可能エリアと車線区分線の約 500 枚の画像と、検出された物体の 250 枚の画像で構成されるカスタム データセットで実験を実施しました。
分析した 3 つの方法のうち、MultiTask V3 が最高であることが判明し、検出で 99% の mAP_50、走行可能エリアのセグメンテーションで 97% の MIoU、車線のセグメンテーションで 91% の MIoU を達成し、RTX 3060 グラフィックス カードで 124 fps を達成しました。
このアーキテクチャは、自動運転車用の組み込み認識システムにとって優れたソリューションです。
コードは https://github.com/vision-agh/MMAR_2023 から入手できます。

要約(オリジナル)

Object detection and segmentation are two core modules of an autonomous vehicle perception system. They should have high efficiency and low latency while reducing computational complexity. Currently, the most commonly used algorithms are based on deep neural networks, which guarantee high efficiency but require high-performance computing platforms. In the case of autonomous vehicles, i.e. cars, but also drones, it is necessary to use embedded platforms with limited computing power, which makes it difficult to meet the requirements described above. A reduction in the complexity of the network can be achieved by using an appropriate: architecture, representation (reduced numerical precision, quantisation, pruning), and computing platform. In this paper, we focus on the first factor – the use of so-called detection-segmentation networks as a component of a perception system. We considered the task of segmenting the drivable area and road markings in combination with the detection of selected objects (pedestrians, traffic lights, and obstacles). We compared the performance of three different architectures described in the literature: MultiTask V3, HybridNets, and YOLOP. We conducted the experiments on a custom dataset consisting of approximately 500 images of the drivable area and lane markings, and 250 images of detected objects. Of the three methods analysed, MultiTask V3 proved to be the best, achieving 99% mAP_50 for detection, 97% MIoU for drivable area segmentation, and 91% MIoU for lane segmentation, as well as 124 fps on the RTX 3060 graphics card. This architecture is a good solution for embedded perception systems for autonomous vehicles. The code is available at: https://github.com/vision-agh/MMAR_2023.

arxiv情報

著者 Maciej Baczmanski,Robert Synoczek,Mateusz Wasala,Tomasz Kryjak
発行日 2023-06-30 08:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク