Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation

要約

仮想エンジンはさまざまな合成シーンの高密度深度マップを生成できるため、深度推定モデルのトレーニングに非常に役立ちます。
ただし、合成色と実世界の色の不一致は、実世界のシーン、特に教師なしの単眼奥行き推定タスクで遭遇する複雑で不確実な環境での奥行き推定に重大な課題を引き起こします。
この問題に対処するために、私たちは Back2Color を提案します。これは、実世界のデータでトレーニングされたモデルを使用して深度から現実的な色を予測し、合成色を現実世界の対応する色に変換するフレームワークです。
さらに、現実世界の教師なし深度サンプルと教師あり合成深度サンプルの両方を使用した共同トレーニング用の Syn-Real CutMix メソッドを導入し、現実世界のシーンでの単眼深度推定パフォーマンスを向上させます。
さらに、深度推定に対する非剛体運動の影響を軽減するために、時間次元と空間次元の両方で教師なし学習の強みを活用する自動学習不確実性時間空間融合法 (Auto-UTSF) を提案します。
また、ビジョン アテンション ネットワークに基づいて VADepth を設計しました。これは、トランスフォーマーよりも計算の複雑さが低く、精度が高くなります。
当社の Back2Color フレームワークは、パフォーマンス メトリクスの向上ときめ細かい詳細の生成によって証明されるように、Kitti データセット上で最先端のパフォーマンスを実現します。
これは、教師なし深度推定のための都市景観などのより困難なデータセットで特に顕著です。

要約(オリジナル)

Virtual engines can generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, discrepancies between synthetic and real-world colors pose significant challenges for depth estimation in real-world scenes, especially in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth using a model trained on real-world data, thus transforming synthetic colors into their real-world counterparts. Additionally, we introduce the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, enhancing monocular depth estimation performance in real-world scenes. Furthermore, to mitigate the impact of non-rigid motions on depth estimation, we present an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which leverages the strengths of unsupervised learning in both temporal and spatial dimensions. We also designed VADepth, based on the Vision Attention Network, which offers lower computational complexity and higher accuracy than transformers. Our Back2Color framework achieves state-of-the-art performance on the Kitti dataset, as evidenced by improvements in performance metrics and the production of fine-grained details. This is particularly evident on more challenging datasets such as Cityscapes for unsupervised depth estimation.

arxiv情報

著者 Yufan Zhu,Chongzhi Ran,Mingtao Feng,Fangfang Wu,Le Dong,Weisheng Dong,Antonio M. López,Guangming Shi
発行日 2024-07-26 08:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク