You Only Look at Once for Real-time and Generic Multi-Task

要約

自動運転の実現には、「高精度」「軽量」「リアルタイム応答性」の3つの必須要件が求められます。
この研究では、物体検出、走行可能エリアのセグメンテーション、車線のセグメンテーションのタスクに同時に対処するように設計された、適応性のあるリアルタイムの軽量マルチタスク モデルを紹介します。
具体的には、統合され合理化されたセグメンテーション構造を備えたエンドツーエンドのマルチタスク モデルを開発しました。
すべてのセグメンテーション タスクに同じ損失関数を使用して、セグメンテーション ネック内の特徴を適応的に連結する学習可能なパラメーターを導入しました。
これにより、カスタマイズの必要がなくなり、モデルの一般化機能が強化されます。
また、一連の畳み込み層のみで構成されるセグメンテーション ヘッドを導入し、推論時間を短縮しました。
私たちは、BDD100k データセット、特に視覚化の結果において、競争力のある結果を達成しました。
パフォーマンスの結果は、物体検出の mAP50 が 81.1%、走行可能エリアのセグメンテーションの mIoU が 91.0%、車線のセグメンテーションの IoU が 28.8% であることを示しています。
さらに、現実のシーンでモデルのパフォーマンスを評価するために現実世界のシナリオを導入し、競合他社を大幅に上回りました。
これは、私たちのモデルが競争力のあるパフォーマンスを発揮するだけでなく、既存のマルチタスク モデルよりも柔軟で高速であることを示しています。
ソース コードと事前トレーニングされたモデルは、https://github.com/JiayuanWang-JW/YOLOv8-multi-task でリリースされています。

要約(オリジナル)

High precision, lightweight, and real-time responsiveness are three essential requirements for implementing autonomous driving. In this study, we present an adaptive, real-time, and lightweight multi-task model designed to concurrently address object detection, drivable area segmentation, and lane line segmentation tasks. Specifically, we developed an end-to-end multi-task model with a unified and streamlined segmentation structure. We introduced a learnable parameter that adaptively concatenate features in segmentation necks, using the same loss function for all segmentation tasks. This eliminates the need for customizations and enhances the model’s generalization capabilities. We also introduced a segmentation head composed only of a series of convolutional layers, which reduces the inference time. We achieved competitive results on the BDD100k dataset, particularly in visualization outcomes. The performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of 28.8% for lane line segmentation. Additionally, we introduced real-world scenarios to evaluate our model’s performance in a real scene, which significantly outperforms competitors. This demonstrates that our model not only exhibits competitive performance but is also more flexible and faster than existing multi-task models. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task

arxiv情報

著者 Jiayuan Wang,Q. M. Jonathan Wu,Ning Zhang
発行日 2023-11-02 16:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク