要約
運動予測は自律走行システムにとって極めて重要なタスクであり、周囲環境における車両の行動戦略を選択するための重要なデータを提供する。既存の運動予測技術は、過去の軌跡データを利用し、シーン内の各エージェントの将来の軌跡を個別に予測することに主眼を置いている。本論文では、環境内の全ての動的オブジェクトの将来の行動を予測するために設計された、エンドツーエンドのニューラルネットワーク手法を紹介する。このアプローチは占有マップとシーンのモーションフローを活用する。我々はOFMPNetと呼ばれる深いエンコーダデコーダモデルを構築するための様々な選択肢を調査している。このモデルは、鳥瞰道路画像のシーケンス、占有グリッド、および事前のモーションフローを入力データとして使用する。このモデルのエンコーダには、変換ユニット、注意ベースユニット、あるいは畳み込みユニットを組み込むことができる。デコーダは畳み込みモジュールとリカレントブロックの両方の使用を考慮する。さらに、我々は新しい時間加重モーションフロー損失を提案し、その適用により終点誤差が大幅に減少することを示した。我々のアプローチは、Waymo Occupancy and Flow Predictionベンチマークにおいて、Soft IoU 52.1%、Flow-Grounded OccupancyにおいてAUC 76.75%という最先端の結果を達成した。
要約(オリジナル)
The task of motion prediction is pivotal for autonomous driving systems, providing crucial data to choose a vehicle behavior strategy within its surroundings. Existing motion prediction techniques primarily focus on predicting the future trajectory of each agent in the scene individually, utilizing its past trajectory data. In this paper, we introduce an end-to-end neural network methodology designed to predict the future behaviors of all dynamic objects in the environment. This approach leverages the occupancy map and the scene’s motion flow. We are investigatin various alternatives for constructing a deep encoder-decoder model called OFMPNet. This model uses a sequence of bird’s-eye-view road images, occupancy grid, and prior motion flow as input data. The encoder of the model can incorporate transformer, attention-based, or convolutional units. The decoder considers the use of both convolutional modules and recurrent blocks. Additionally, we propose a novel time-weighted motion flow loss, whose application has shown a substantial decrease in end-point error. Our approach has achieved state-of-the-art results on the Waymo Occupancy and Flow Prediction benchmark, with a Soft IoU of 52.1% and an AUC of 76.75% on Flow-Grounded Occupancy.
arxiv情報
| 著者 | Youshaa Murhij,Dmitry Yudin |
| 発行日 | 2024-04-02 19:37:58+00:00 |
| arxivサイト | arxiv_id(pdf) |