BEVSeg2TP: Surround View Camera Bird’s-Eye-View Based Joint Vehicle Segmentation and Ego Vehicle Trajectory Prediction

要約

当然のことながら、軌道予測は車両の自律性にとって重要なタスクです。
交通ルールの数は限られていますが、現実世界のシナリオにおける各エージェントの行動に関連する組み合わせや不確実性をエンコードすることはほぼ不可能です。
その結果、学習ベースの軌道予測への関心が高まっています。
本論文で提案する手法は,知覚と軌道予測を統合したシステムとして考慮して軌道を予測する.
それらを統合されたタスクとして考えることで、知覚のパフォーマンスを向上させる可能性があることを示します。
これらの目標を達成するために、我々は、自動運転車両用のサラウンドビューカメラ鳥瞰図ベースの統合車両セグメンテーションおよび自車両軌道予測システムである BEVSeg2TP を紹介します。
提案されたシステムは、複数のカメラ ビューでトレーニングされたネットワークを使用します。
画像は、シーン内の他の車両を含むオブジェクトのセマンティック セグメンテーションを実行するために、いくつかの深層学習技術を使用して変換されます。
セグメンテーション出力はカメラ ビュー全体で融合され、鳥瞰図の観点から周囲の車両の包括的な表現が取得されます。
さらに、システムは、軌道予測を最適化するために時空間確率ネットワーク (STPN) を使用して自車両の将来の軌道を予測します。
このネットワークは、エンコーダ/デコーダ変換器と共同車両セグメンテーションからの情報を活用します。

要約(オリジナル)

Trajectory prediction is, naturally, a key task for vehicle autonomy. While the number of traffic rules is limited, the combinations and uncertainties associated with each agent’s behaviour in real-world scenarios are nearly impossible to encode. Consequently, there is a growing interest in learning-based trajectory prediction. The proposed method in this paper predicts trajectories by considering perception and trajectory prediction as a unified system. In considering them as unified tasks, we show that there is the potential to improve the performance of perception. To achieve these goals, we present BEVSeg2TP – a surround-view camera bird’s-eye-view-based joint vehicle segmentation and ego vehicle trajectory prediction system for autonomous vehicles. The proposed system uses a network trained on multiple camera views. The images are transformed using several deep learning techniques to perform semantic segmentation of objects, including other vehicles, in the scene. The segmentation outputs are fused across the camera views to obtain a comprehensive representation of the surrounding vehicles from the bird’s-eye-view perspective. The system further predicts the future trajectory of the ego vehicle using a spatiotemporal probabilistic network (STPN) to optimize trajectory prediction. This network leverages information from encoder-decoder transformers and joint vehicle segmentation.

arxiv情報

著者 Sushil Sharma,Arindam Das,Ganesh Sistu,Mark Halton,Ciarán Eising
発行日 2023-12-20 15:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク