Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes

要約

自己監視型単眼奥行き推定の進歩にもかかわらず、静的な世界についての仮定に依存するため、動的なシナリオでは課題が残ります。
この論文では、計算効率を維持しながら、動的なオブジェクトと静的な背景の両方の正確な深度推定を実現する、モーションガイド付きコスト ボリューム深度ネットであるMany Depth2を紹介します。
動的コンテンツによってもたらされる課題に取り組むために、オプティカル フローと粗い単眼深度を組み込んで、新しい静的参照フレームを作成します。
次に、このフレームを利用して、ターゲット フレームと連携してモーション ガイド付きのコスト ボリュームを構築します。
さらに、ネットワーク構造の精度と回復力を強化するために、さまざまな解像度の特徴マップからの情報を効果的に統合するアテンションベースの深度ネット アーキテクチャを導入します。
Many Depth2 は、同様の計算コストの手法と比較して、KITTI-2015 データセットでの自己教師あり単眼深度推定の二乗平均平方根誤差の約 5% の大幅な削減を達成します。
コードは次の場所にあります: https://github.com/kaichen-z/Many Depth2

要約(オリジナル)

Despite advancements in self-supervised monocular depth estimation, challenges persist in dynamic scenarios due to the dependence on assumptions about a static world. In this paper, we present Manydepth2, a Motion-Guided Cost Volume Depth Net, to achieve precise depth estimation for both dynamic objects and static backgrounds, all while maintaining computational efficiency. To tackle the challenges posed by dynamic content, we incorporate optical flow and coarse monocular depth to create a novel static reference frame. This frame is then utilized to build a motion-guided cost volume in collaboration with the target frame. Additionally, to enhance the accuracy and resilience of the network structure, we introduce an attention-based depth net architecture to effectively integrate information from feature maps with varying resolutions. Compared to methods with similar computational costs, Manydepth2 achieves a significant reduction of approximately five percent in root-mean-square error for self-supervised monocular depth estimation on the KITTI-2015 dataset. The code could be found: https://github.com/kaichen-z/Manydepth2

arxiv情報

著者 Kaichen Zhou,Jia-Wang Bian,Qian Xie,Jian-Qing Zheng,Niki Trigoni,Andrew Markham
発行日 2024-09-16 17:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク