要約
自己監視型マルチフレーム深度推定は、隣接するフレーム間のピクセル対応のマッチング コストを計算し、幾何学的情報をネットワークに注入することで高精度を実現します。
これらのピクセル対応候補は、フレーム間の相対姿勢推定に基づいて計算されます。
正確な姿勢予測はエピポーラ ジオメトリに影響を与えるため、正確なマッチング コストの計算には不可欠です。
さらに、改善された深度推定値を使用して姿勢推定値を調整することもできます。
従来の Structure-from-Motion (SfM) 原理にインスピレーションを得て、フィードバック ループを通じて深度と姿勢推定を緊密に結合する DualRefine モデルを提案します。
当社の新しい更新パイプラインは、深度平衡モデル フレームワークを使用して、エピポーラ幾何学に基づいてローカル マッチング コストを計算することにより、深さの推定と特徴マップの隠れた状態を繰り返し改良します。
重要なのは、洗練された深度推定と特徴マップを使用して、各ステップで姿勢の更新を計算したことです。
姿勢推定のこの更新により、リファインメント プロセス中にエピポーラ ジオメトリがゆっくりと変更されます。
KITTI データセットの実験結果は、競合する深度予測とオドメトリ予測のパフォーマンスが、公開されている自己監視ベースラインを上回ることを示しています。
要約(オリジナル)
Self-supervised multi-frame depth estimation achieves high accuracy by computing matching costs of pixel correspondences between adjacent frames, injecting geometric information into the network. These pixel-correspondence candidates are computed based on the relative pose estimates between the frames. Accurate pose predictions are essential for precise matching cost computation as they influence the epipolar geometry. Furthermore, improved depth estimates can, in turn, be used to align pose estimates. Inspired by traditional structure-from-motion (SfM) principles, we propose the DualRefine model, which tightly couples depth and pose estimation through a feedback loop. Our novel update pipeline uses a deep equilibrium model framework to iteratively refine depth estimates and a hidden state of feature maps by computing local matching costs based on epipolar geometry. Importantly, we used the refined depth estimates and feature maps to compute pose updates at each step. This update in the pose estimates slowly alters the epipolar geometry during the refinement process. Experimental results on the KITTI dataset demonstrate competitive depth prediction and odometry prediction performance surpassing published self-supervised baselines.
arxiv情報
著者 | Antyanta Bangunharcana,Ahmed Magd,Kyung-Soo Kim |
発行日 | 2024-04-05 14:07:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google