Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior

要約

単一の画像からの単眼の奥行き推定は、事前知識として信頼できる手がかりが不十分であるため、コンピュータ ビジョンにとって不適切な問題です。
フレーム間監視、つまりステレオフレームと隣接フレームに加えて、同じフレーム内で広範な事前情報が利用可能です。
鏡面からの反射、有益なフレーム内事前分布により、不適切な深度推定タスクをマルチビュー合成として再定式化することができます。
この論文では、反射監視と幾何学的制約として知られる、フレーム内事前分布を介した水シーンの深層学習深度推定のための最初の自己監視を提案します。
最初の段階では、水セグメンテーション ネットワークが実行され、画像全体から反射成分が分離されます。
次に、他の視点として認識される反射からターゲットの外観を予測するための自己教師ありフレームワークを構築します。
SmoothL1 と新しい測光適応型 SSIM を組み込んだ測光再投影誤差は、変換された仮想深度とソースのものを調整することで姿勢と深度の推定を最適化するように定式化されます。
補足すると、現実と仮想のカメラ位置から水面を決定し、水域の深さを補完します。
さらに、これらの面倒なグラウンド トゥルースのアノテーションを軽減するために、Unreal Engine 4 からレンダリングされた大規模な水面反射シーン (WRS) データセットを導入します。WRS データセットに関する広範な実験により、提案された方法の実現可能性が現状と比較して証明されています。
芸術の深度推定技術。

要約(オリジナル)

Monocular depth estimation from a single image is an ill-posed problem for computer vision due to insufficient reliable cues as the prior knowledge. Besides the inter-frame supervision, namely stereo and adjacent frames, extensive prior information is available in the same frame. Reflections from specular surfaces, informative intra-frame priors, enable us to reformulate the ill-posed depth estimation task as a multi-view synthesis. This paper proposes the first self-supervision for deep-learning depth estimation on water scenes via intra-frame priors, known as reflection supervision and geometrical constraints. In the first stage, a water segmentation network is performed to separate the reflection components from the entire image. Next, we construct a self-supervised framework to predict the target appearance from reflections, perceived as other perspectives. The photometric re-projection error, incorporating SmoothL1 and a novel photometric adaptive SSIM, is formulated to optimize pose and depth estimation by aligning the transformed virtual depths and source ones. As a supplement, the water surface is determined from real and virtual camera positions, which complement the depth of the water area. Furthermore, to alleviate these laborious ground truth annotations, we introduce a large-scale water reflection scene (WRS) dataset rendered from Unreal Engine 4. Extensive experiments on the WRS dataset prove the feasibility of the proposed method compared to state-of-the-art depth estimation techniques.

arxiv情報

著者 Zhengyang Lu,Ying Chen
発行日 2024-04-10 17:25:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク