Pixel State Value Network for Combined Prediction and Planning in Interactive Environments

要約

都市環境で走行する自動運転車は、他の交通参加者と確実に対話する必要があります。
計画アルゴリズムでは、オブジェクトの確率的、マルチモーダル、インタラクティブな動作を予測する個別の予測モジュールがよく利用されます。
予測と計画を 2 つの別個のモジュールとして設計すると、特にこれらのモジュールの相互依存性により、重大な課題が生じます。
この研究では、予測と計画を組み合わせる深層学習方法論を提案しています。
U-Net アーキテクチャを備えた条件付き GAN は、2 つの高解像度画像シーケンスを予測するようにトレーニングされています。
シーケンスは、主にコンテキストの理解をトレーニングするために使用される明示的な動き予測と、運動学的到達可能性、オブジェクトのダイナミクス、安全性、および運転の快適性をエンコードする計画に適したピクセル状態値を表します。
このモデルは、実世界の運転データを活用して、サンプリングベースのモデル予測プランナーによってレンダリングされたターゲット画像上でオフラインでトレーニングできます。
私たちの結果は、矛盾する目標の中での車線変更などの複雑な状況における直感的な動作を示しています。

要約(オリジナル)

Automated vehicles operating in urban environments have to reliably interact with other traffic participants. Planning algorithms often utilize separate prediction modules forecasting probabilistic, multi-modal, and interactive behaviors of objects. Designing prediction and planning as two separate modules introduces significant challenges, particularly due to the interdependence of these modules. This work proposes a deep learning methodology to combine prediction and planning. A conditional GAN with the U-Net architecture is trained to predict two high-resolution image sequences. The sequences represent explicit motion predictions, mainly used to train context understanding, and pixel state values suitable for planning encoding kinematic reachability, object dynamics, safety, and driving comfort. The model can be trained offline on target images rendered by a sampling-based model-predictive planner, leveraging real-world driving data. Our results demonstrate intuitive behavior in complex situations, such as lane changes amidst conflicting objectives.

arxiv情報

著者 Sascha Rosbach,Stefan M. Leupold,Simon Großjohann,Stefan Roth
発行日 2023-10-11 17:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク