Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation

要約

バーチャルエンジンは、様々な合成シーンに対して高密度の深度マップを生成することができ、深度推定モデルの学習に非常に有用である。しかし、合成色と実世界の色の不一致は、実世界のシーンにおける奥行き推定、特に教師なし単眼奥行き推定タスクで遭遇する複雑で不確実な環境における奥行き推定に大きな課題をもたらす。この問題に対処するため、我々はBack2Colorを提案する。Back2Colorは、実世界のデータで学習したモデルを用いて、奥行きから現実的な色を予測するフレームワークであり、これにより合成色を実世界の対応する色に変換する。さらに、実世界の教師なし奥行きサンプルと教師あり合成奥行きサンプルの両方を用いて共同学習を行うSyn-Real CutMix法を導入し、実世界シーンにおける単眼奥行き推定性能を向上させる。さらに、非剛体運動が奥行き推定に与える影響を緩和するために、自動学習不確実性時間空間融合法(Auto-UTSF)を提示し、時間的・空間的次元における教師なし学習の長所を活用する。また、Vision Attention Networkに基づくVADepthを設計し、変換器よりも計算量が少なく高精度を実現する。我々のBack2Colorフレームワークは、Kittiデータセットにおいて最先端の性能を達成し、それは性能指標の改善ときめ細かい詳細の生成によって証明されている。このことは、教師なし深度推定のためのCityscapesのような、より困難なデータセットにおいて特に明らかである。

要約(オリジナル)

Virtual engines can generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, discrepancies between synthetic and real-world colors pose significant challenges for depth estimation in real-world scenes, especially in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth using a model trained on real-world data, thus transforming synthetic colors into their real-world counterparts. Additionally, we introduce the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, enhancing monocular depth estimation performance in real-world scenes. Furthermore, to mitigate the impact of non-rigid motions on depth estimation, we present an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which leverages the strengths of unsupervised learning in both temporal and spatial dimensions. We also designed VADepth, based on the Vision Attention Network, which offers lower computational complexity and higher accuracy than transformers. Our Back2Color framework achieves state-of-the-art performance on the Kitti dataset, as evidenced by improvements in performance metrics and the production of fine-grained details. This is particularly evident on more challenging datasets such as Cityscapes for unsupervised depth estimation.

arxiv情報

著者 Yufan Zhu,Chongzhi Ran,Mingtao Feng,Fangfang Wu,Le Dong,Weisheng Dong,Antonio M. López,Guangming Shi
発行日 2024-07-03 14:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク