要約
高解像度 (HD) マップを使用しない自動運転には、より高いレベルのアクティブなシーンの理解が必要です。
このコンテストでは、主催者はシーン推論能力の限界を探るために、多視点カメラ画像と標準解像度 (SD) マップを提供しました。
既存のアルゴリズムのほとんどは、これらの多視点画像から鳥瞰図 (BEV) フィーチャを構築し、マルチタスク ヘッドを使用して道路の中心線、境界線、横断歩道、その他のエリアを描写していることがわかりました。
ただし、これらのアルゴリズムは道路の遠端ではパフォーマンスが低く、画像内の主要な被写体が遮られている場合には困難を伴います。
そこで、今回のコンペティションでは、多視点画像を入力として使用するだけでなく、SD マップも組み込んでこの問題に対処しました。
マップ エンコーダの事前トレーニングを採用してネットワークの幾何学的エンコード機能を強化し、YOLOX を利用してトラフィック要素の検出精度を向上させました。
さらに、エリア検出については、LDTR と補助タスクを革新的に導入し、より高い精度を実現しました。
その結果、最終的な OLUS スコアは 0.58 となりました。
要約(オリジナル)
Autonomous driving without high-definition (HD) maps demands a higher level of active scene understanding. In this competition, the organizers provided the multi-perspective camera images and standard-definition (SD) maps to explore the boundaries of scene reasoning capabilities. We found that most existing algorithms construct Bird’s Eye View (BEV) features from these multi-perspective images and use multi-task heads to delineate road centerlines, boundary lines, pedestrian crossings, and other areas. However, these algorithms perform poorly at the far end of roads and struggle when the primary subject in the image is occluded. Therefore, in this competition, we not only used multi-perspective images as input but also incorporated SD maps to address this issue. We employed map encoder pre-training to enhance the network’s geometric encoding capabilities and utilized YOLOX to improve traffic element detection precision. Additionally, for area detection, we innovatively introduced LDTR and auxiliary tasks to achieve higher precision. As a result, our final OLUS score is 0.58.
arxiv情報
著者 | Zhongyu Yang,Mai Liu,Jinluo Xie,Yueming Zhang,Chen Shen,Wei Shao,Jichao Jiao,Tengfei Xing,Runbo Hu,Pengfei Xu |
発行日 | 2024-06-14 15:31:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google