Monocular Visual-Inertial Depth Estimation

要約

単眼深度推定と視覚慣性オドメトリーを統合してメートル法スケールの密な深度推定を生成する視覚慣性深度推定パイプラインを提示します。
私たちのアプローチは、スパースメトリック深度に対してグローバルスケールとシフトアライメントを実行し、その後に学習ベースの密なアライメントを実行します。
TartanAir および VOID データセットを評価し、グローバル アライメントのみを実行する場合と比較して、密なスケール アライメントで逆 RMSE が最大 30% 減少することを観察します。
私たちのアプローチは、低密度で特に競争力があります。
わずか 150 のスパース メトリック深度ポイントで、高密度から高密度への深度アライメント方法は、現在 VOID の最先端である KBNet による疎から高密度への深度補完よりも 50% 以上低い iRMSE を達成します。
合成 TartanAir から実世界の VOID データへのゼロ ショット転送の成功を実証し、NYUv2 と VCU-RVI で一般化テストを実行します。
私たちのアプローチはモジュール式であり、さまざまな単眼深度推定モデルと互換性があります。
ビデオ: https://youtu.be/IMwiKwSpshQ コード: https://github.com/isl-org/VI-Depth

要約(オリジナル)

We present a visual-inertial depth estimation pipeline that integrates monocular depth estimation and visual-inertial odometry to produce dense depth estimates with metric scale. Our approach performs global scale and shift alignment against sparse metric depth, followed by learning-based dense alignment. We evaluate on the TartanAir and VOID datasets, observing up to 30% reduction in inverse RMSE with dense scale alignment relative to performing just global alignment alone. Our approach is especially competitive at low density; with just 150 sparse metric depth points, our dense-to-dense depth alignment method achieves over 50% lower iRMSE over sparse-to-dense depth completion by KBNet, currently the state of the art on VOID. We demonstrate successful zero-shot transfer from synthetic TartanAir to real-world VOID data and perform generalization tests on NYUv2 and VCU-RVI. Our approach is modular and is compatible with a variety of monocular depth estimation models. Video: https://youtu.be/IMwiKwSpshQ Code: https://github.com/isl-org/VI-Depth

arxiv情報

著者 Diana Wofk,René Ranftl,Matthias Müller,Vladlen Koltun
発行日 2023-03-21 18:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク