DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation

要約

最近、教師なしの方法で単眼ビデオから奥行きを知覚する方法を学ぶことへの関心が高まっています。
この分野における主な課題は、困難なシナリオ、特にテクスチャが弱い領域や動的オブジェクトが存在する領域で、堅牢かつ正確な深度推定を達成することです。
この研究は、密な対応事前を深く掘り下げて既存のフレームワークに明示的な幾何学的制約を提供することにより、3 つの主要な貢献を行います。
1 つ目の目新しさは、文脈幾何学的深度一貫性損失です。これは、明示的に三角測量された深度マップがピクセル間の正確な相対距離を捕捉するため、推定された自我運動に基づく密な対応関係から三角測量された深度マップを使用して、コンテキスト情報からの深度知覚の学習をガイドします。
2 番目の新規性は、オプティカル フローの発散と深度勾配の間に明示的で演繹可能な関係が存在するという観察から生じます。
したがって、微分特性相関損失は、局所的な変動に特に重点を置いて深度推定を改良するように設計されています。
3 番目の目新しさは、リジッド フローとオプティカル フローの間の相互作用を強化する双方向ストリームの相互調整戦略です。これにより、前者がより正確に対応するように促進され、後者は静的なシーンの仮説に基づくさまざまなシナリオに適応できるようになります。
DCPI-Depth は、こ​​れらすべての革新的なコンポーネントを組み込み、2 つの双方向の協調ストリームを結合するフレームワークで、複数の公開データセットにわたって最先端のパフォーマンスと汎用性を実現し、既存のすべての従来技術を上回ります。
具体的には、テクスチャのない動的領域での正確な深度推定を実証し、より合理的な滑らかさを示します。

要約(オリジナル)

There has been a recent surge of interest in learning to perceive depth from monocular videos in an unsupervised fashion. A key challenge in this field is achieving robust and accurate depth estimation in challenging scenarios, particularly in regions with weak textures or where dynamic objects are present. This study makes three major contributions by delving deeply into dense correspondence priors to provide existing frameworks with explicit geometric constraints. The first novelty is a contextual-geometric depth consistency loss, which employs depth maps triangulated from dense correspondences based on estimated ego-motion to guide the learning of depth perception from contextual information, since explicitly triangulated depth maps capture accurate relative distances among pixels. The second novelty arises from the observation that there exists an explicit, deducible relationship between optical flow divergence and depth gradient. A differential property correlation loss is, therefore, designed to refine depth estimation with a specific emphasis on local variations. The third novelty is a bidirectional stream co-adjustment strategy that enhances the interaction between rigid and optical flows, encouraging the former towards more accurate correspondence and making the latter more adaptable across various scenarios under the static scene hypotheses. DCPI-Depth, a framework that incorporates all these innovative components and couples two bidirectional and collaborative streams, achieves state-of-the-art performance and generalizability across multiple public datasets, outperforming all existing prior arts. Specifically, it demonstrates accurate depth estimation in texture-less and dynamic regions, and shows more reasonable smoothness.

arxiv情報

著者 Mengtan Zhang,Yi Feng,Qijun Chen,Rui Fan
発行日 2024-05-27 08:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク