Differentiable Raycasting for Self-supervised Occupancy Forecasting

要約

安全な自動運転のための動作計画では、自車の周囲の環境が時間とともにどのように進化するかを学習する必要があります。
シーン内の運転可能な領域に対する自我中心の認識は、環境内の俳優の動きだけでなく、自我車両自体の動きによっても変化します。
自我中心の自由空間など、大規模な計画のために提案された自己管理型の表現は、これら 2 つの動きを混乱させ、下流の動きプランナーが表現を使用するのを困難にします。
このホワイトペーパーでは、フリースペースなどのビューに依存する表現の自然な代替手段として、幾何学的占有を使用します。
占有マップは、自我車両の動きから環境の動きを自然に解きほぐします。
ただし、シーンの完全な 3D 占有率を (オクルージョンにより) 直接観察することはできないため、学習用の信号として使用することは困難です。
私たちの重要な洞察は、微分可能なレイキャスティングを使用して、将来の占有予測を将来の LiDAR スイープ予測に「レンダリング」することです。これは、自己教師あり学習のグラウンド トゥルース スイープと比較できます。
微分可能なレイキャスティングを使用すると、占有率を予測ネットワーク内の内部表現として出現させることができます。
グラウンドトゥルースの占有がない場合、レイキャストされた LiDAR スイープの予測を定量的に評価し、最大 15 の F1 ポイントの改善を示します。
緊急の占有を直接使用して非駆動領域をガイドできるダウンストリーム モーション プランナーの場合、この表現は、自由空間中心のモーション プランナーと比較して、オブジェクトとの衝突の数を最大 17% まで相対的に減らします。

要約(オリジナル)

Motion planning for safe autonomous driving requires learning how the environment around an ego-vehicle evolves with time. Ego-centric perception of driveable regions in a scene not only changes with the motion of actors in the environment, but also with the movement of the ego-vehicle itself. Self-supervised representations proposed for large-scale planning, such as ego-centric freespace, confound these two motions, making the representation difficult to use for downstream motion planners. In this paper, we use geometric occupancy as a natural alternative to view-dependent representations such as freespace. Occupancy maps naturally disentangle the motion of the environment from the motion of the ego-vehicle. However, one cannot directly observe the full 3D occupancy of a scene (due to occlusion), making it difficult to use as a signal for learning. Our key insight is to use differentiable raycasting to ‘render’ future occupancy predictions into future LiDAR sweep predictions, which can be compared with ground-truth sweeps for self-supervised learning. The use of differentiable raycasting allows occupancy to emerge as an internal representation within the forecasting network. In the absence of groundtruth occupancy, we quantitatively evaluate the forecasting of raycasted LiDAR sweeps and show improvements of upto 15 F1 points. For downstream motion planners, where emergent occupancy can be directly used to guide non-driveable regions, this representation relatively reduces the number of collisions with objects by up to 17% as compared to freespace-centric motion planners.

arxiv情報

著者 Tarasha Khurana,Peiyun Hu,Achal Dave,Jason Ziglar,David Held,Deva Ramanan
発行日 2022-10-18 14:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク