Semantic Segmentation for Autonomous Driving: Model Evaluation, Dataset Generation, Perspective Comparison, and Real-Time Capability

要約

環境認識は、自動運転車の分野における重要な側面であり、明確な運転エリアや周囲の障害物の特定など、運転領域に関する重要な情報を提供します。
セマンティックセグメンテーションは、自動運転車に広く使用されている認識方法であり、画像の各ピクセルを事前定義されたクラスに関連付けます。
これに関連して、いくつかのセグメンテーションモデルが精度と効率に関して評価されます。
生成されたデータセットの実験結果により、セグメンテーションモデルFasterSegは、自動運転車の低電力計算(組み込み)デバイスでリアルタイムに使用できるほど高速であることが確認されています。
モデルの合成トレーニングデータを生成するための簡単な方法も紹介されています。
さらに、一人称視点と鳥瞰視点の精度を比較します。
一人称の観点からの$320\ times 256 $入力の場合、FasterSegは$ 65.44 \、\%$平均交差点(mIoU)を達成し、鳥瞰図の観点からの$ 320 \ times 256 $入力の場合、FasterSegは$64.08を達成します。
\、\%$mIoU。
どちらのパースペクティブも、NVIDIA JetsonAGXXavierで$247.11$フレーム/秒(FPS)のフレームレートを達成します。
最後に、両方のパースペクティブの算術16ビット浮動小数点(FP16)と32ビット浮動小数点(FP32)に関するフレームレートと精度が測定され、ターゲットハードウェアで比較されます。

要約(オリジナル)

Environmental perception is an important aspect within the field of autonomous vehicles that provides crucial information about the driving domain, including but not limited to identifying clear driving areas and surrounding obstacles. Semantic segmentation is a widely used perception method for self-driving cars that associates each pixel of an image with a predefined class. In this context, several segmentation models are evaluated regarding accuracy and efficiency. Experimental results on the generated dataset confirm that the segmentation model FasterSeg is fast enough to be used in realtime on lowpower computational (embedded) devices in self-driving cars. A simple method is also introduced to generate synthetic training data for the model. Moreover, the accuracy of the first-person perspective and the bird’s eye view perspective are compared. For a $320 \times 256$ input in the first-person perspective, FasterSeg achieves $65.44\,\%$ mean Intersection over Union (mIoU), and for a $320 \times 256$ input from the bird’s eye view perspective, FasterSeg achieves $64.08\,\%$ mIoU. Both perspectives achieve a frame rate of $247.11$ Frames per Second (FPS) on the NVIDIA Jetson AGX Xavier. Lastly, the frame rate and the accuracy with respect to the arithmetic 16-bit Floating Point (FP16) and 32-bit Floating Point (FP32) of both perspectives are measured and compared on the target hardware.

arxiv情報

著者 Senay Cakir,Marcel Gauß,Kai Häppeler,Yassine Ounajjar,Fabian Heinle,Reiner Marchthaler
発行日 2022-07-26 14:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク