OCTraN: 3D Occupancy Convolutional Transformer Network in Unstructured Traffic Scenarios

要約

自律航行のための視覚中心の環境認識のための最新のアプローチでは、視差マップを出力する自己監視型単眼奥行き推定アルゴリズムが広範囲に利用されています。
しかし、この視差マップを 3D 空間に投影すると、視差の誤差が拡大し、カメラからの距離が増すにつれて奥行き推定誤差が二次関数的に増加します。
Light Detection and Ranging (LiDAR) はこの問題を解決できますが、高価であり、多くのアプリケーションでは実現できません。
低コストのセンサーを使用して正確な測距を行うという課題に対処するために、我々は、反復注意を使用して 2D 画像特徴を 3D 占有特徴に変換し、畳み込みと転置畳み込みを利用して空間情報を効率的に操作する変換アーキテクチャである OCTraN を提案します。
また、ブーストされた単眼深度推定から得られる疑似グラウンド トゥルース ラベルで置き換えることにより LiDAR グラウンド トゥルースの必要性を排除し、モデルを任意のシーンに一般化するための自己教師ありトレーニング パイプラインも開発します。

要約(オリジナル)

Modern approaches for vision-centric environment perception for autonomous navigation make extensive use of self-supervised monocular depth estimation algorithms that output disparity maps. However, when this disparity map is projected onto 3D space, the errors in disparity are magnified, resulting in a depth estimation error that increases quadratically as the distance from the camera increases. Though Light Detection and Ranging (LiDAR) can solve this issue, it is expensive and not feasible for many applications. To address the challenge of accurate ranging with low-cost sensors, we propose, OCTraN, a transformer architecture that uses iterative-attention to convert 2D image features into 3D occupancy features and makes use of convolution and transpose convolution to efficiently operate on spatial information. We also develop a self-supervised training pipeline to generalize the model to any scene by eliminating the need for LiDAR ground truth by substituting it with pseudo-ground truth labels obtained from boosted monocular depth estimation.

arxiv情報

著者 Aditya Nalgunda Ganesh,Dhruval Pobbathi Badrinath,Harshith Mohan Kumar,Priya SS,Surabhi Narayan
発行日 2023-07-20 15:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク