SQLdepth: Generalizable Self-Supervised Fine-Structured Monocular Depth Estimation

要約

近年、自己教師による単眼的奥行き推定は、自律走行やロボット工学における数多くの応用で人気を博している。しかし、既存のソリューションは、主に即時的な視覚的特徴から奥行きを推定しようとするものであり、限定的な汎化できめ細かいシーンの詳細を回復するのに苦労している。本稿では、動きからきめ細かなシーン構造を効果的に学習できる新しいアプローチであるSQLdepthを紹介する。SQLdepthでは、特徴マップから奥行きを推測するのではなく、自己コストボリュームを構築し、そこから奥行きを推測する新しい自己問合せ層(Self Query Layer: SQL)を提案する。自己コストボリュームは、1フレーム内のシーンの本質的な形状を暗黙的に捉える。ボリュームの個々のスライスは、潜在空間内の点とオブジェクト間の相対距離を意味する。最終的に、このボリュームは新しいデコーディングアプローチによって深度マップに圧縮される。KITTIとCityscapesの実験結果から、本手法は顕著な最先端性能(KITTIでAbsRel = $0.082$、KITTIでグラウンドトゥルース改善により$0.052$、Cityscapesで$0.106$)を達成し、従来の最高性能から$9.9%$、$5.5%$、$4.5%$のエラー削減を達成した。さらに、本アプローチは、学習複雑性の低減、計算効率、汎化の改善、きめ細かなシーン詳細の回復能力を示す。さらに、自己教師付き事前訓練とメトリック微調整を行ったSQLdepthは、既存の教師付き手法を大幅に上回ることができる(AbsRel = $0.043$、$14%$のエラー削減)。SQLにおける自己マッチング指向の相対距離クエリは、SQLdepthの頑健性とゼロショット汎化能力を向上させる。コードと事前に訓練された重みは公開される。コードについては、୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)

要約(オリジナル)

Recently, self-supervised monocular depth estimation has gained popularity with numerous applications in autonomous driving and robotics. However, existing solutions primarily seek to estimate depth from immediate visual features, and struggle to recover fine-grained scene details with limited generalization. In this paper, we introduce SQLdepth, a novel approach that can effectively learn fine-grained scene structures from motion. In SQLdepth, we propose a novel Self Query Layer (SQL) to build a self-cost volume and infer depth from it, rather than inferring depth from feature maps. The self-cost volume implicitly captures the intrinsic geometry of the scene within a single frame. Each individual slice of the volume signifies the relative distances between points and objects within a latent space. Ultimately, this volume is compressed to the depth map via a novel decoding approach. Experimental results on KITTI and Cityscapes show that our method attains remarkable state-of-the-art performance (AbsRel = $0.082$ on KITTI, $0.052$ on KITTI with improved ground-truth and $0.106$ on Cityscapes), achieves $9.9\%$, $5.5\%$ and $4.5\%$ error reduction from the previous best. In addition, our approach showcases reduced training complexity, computational efficiency, improved generalization, and the ability to recover fine-grained scene details. Moreover, the self-supervised pre-trained and metric fine-tuned SQLdepth can surpass existing supervised methods by significant margins (AbsRel = $0.043$, $14\%$ error reduction). self-matching-oriented relative distance querying in SQL improves the robustness and zero-shot generalization capability of SQLdepth. Code and the pre-trained weights will be publicly available. Code is available at \href{https://github.com/hisfog/SQLdepth-Impl}{https://github.com/hisfog/SQLdepth-Impl}.

arxiv情報

著者 Youhong Wang,Yunji Liang,Hao Xu,Shaohui Jiao,Hongkai Yu
発行日 2023-09-01 15:27:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク