Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers

要約

現在の駐車エリア認識アルゴリズムは、主に限られた範囲内の空きスロットを検出することに焦点を当てており、ラベル付けと推論の両方でエラーが発生しやすいホモグラフィック射影に依存しています。
ただし、先進運転支援システム (ADAS) の最近の進歩により、包括的でインテリジェントなヒューマン マシン インターフェイス (HMI) を介したエンドユーザーとの対話が必要になります。
これらのインターフェースは、空きスロットの進入ラインの区別から他の駐車車両の方向に至るまで、駐車エリアの完全な認識を提供する必要があります。
このペーパーでは、マルチヘッド アテンションを備えた 4 台のカメラ魚眼サラウンドビュー カメラ システム (SVCS) の機能を活用して、詳細な鳥瞰図 (BEV) グリッド機能を作成する、マルチタスク フィッシュアイ クロス ビュー トランスフォーマー (MT F-CVT) について紹介します。
地図。
特徴は、セグメンテーション デコーダと、駐車スロットと車両の Polygon-Yolo ベースの物体検出デコーダの両方によって処理されます。
LiDAR を使用してラベル付けされたデータでトレーニングされた MT F-CVT は、平均誤差わずか 20 cm で、25 m x 25 m の実際の一般道路シーン内にオブジェクトを配置します。
私たちのより大きなモデルでは、F-1 スコア 0.89 を達成しています。
さらに、小型モデルは Nvidia Jetson Orin 組み込みボード上で 16 fps で動作し、大型モデルと同様の検出結果が得られます。
MT F-CVT は、さまざまな車両やカメラ リグ構成にわたって堅牢な汎用化機能を実証します。
未公開の車両とカメラ リグからのデモ ビデオは、https://streamable.com/jjw54x でご覧いただけます。

要約(オリジナル)

Current parking area perception algorithms primarily focus on detecting vacant slots within a limited range, relying on error-prone homographic projection for both labeling and inference. However, recent advancements in Advanced Driver Assistance System (ADAS) require interaction with end-users through comprehensive and intelligent Human-Machine Interfaces (HMIs). These interfaces should present a complete perception of the parking area going from distinguishing vacant slots’ entry lines to the orientation of other parked vehicles. This paper introduces Multi-Task Fisheye Cross View Transformers (MT F-CVT), which leverages features from a four-camera fisheye Surround-view Camera System (SVCS) with multihead attentions to create a detailed Bird-Eye View (BEV) grid feature map. Features are processed by both a segmentation decoder and a Polygon-Yolo based object detection decoder for parking slots and vehicles. Trained on data labeled using LiDAR, MT F-CVT positions objects within a 25m x 25m real open-road scenes with an average error of only 20 cm. Our larger model achieves an F-1 score of 0.89. Moreover the smaller model operates at 16 fps on an Nvidia Jetson Orin embedded board, with similar detection results to the larger one. MT F-CVT demonstrates robust generalization capability across different vehicles and camera rig configurations. A demo video from an unseen vehicle and camera rig is available at: https://streamable.com/jjw54x.

arxiv情報

著者 Antonyo Musabini,Ivan Novikov,Sana Soula,Christel Leonet,Lihao Wang,Rachid Benmokhtar,Fabian Burger,Thomas Boulay,Xavier Perrotton
発行日 2024-09-30 13:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク