Towards Robust Monocular Depth Estimation in Non-Lambertian Surfaces

要約

単眼深度推定(MDE)の分野では、最近、一般的なシーンで優れたゼロショット性能を備えたモデルが数多く登場しています。
ただし、これらの領域の固有の反射特性により、これらの方法では、透明または鏡面 (ToM) 表面などの非ランバート表面の予測に失敗することがよくあります。
以前の方法は、外部から提供された ToM マスクを利用し、RGB イメージの直接描画を通じて正しい深度マップを取得することを目的としていました。
これらの方法は、追加の入力マスクの精度に大きく依存しており、インペイント中にランダムなカラーを使用するため、堅牢性が不十分になります。
私たちは、適切に設計されたトレーニング フレームワークを通じて、深度推定のためにベースライン モデルが非ランバート表面領域の一意性を直接学習できるように段階的に取り組んでいます。
したがって、我々は、MDE モデルのロバスト性を高めるために勾配領域からの MDE モデルの予測を制約する非ランバーシアン表面領域ガイダンスを提案します。
このタスクに対する照明の重大な影響に注目して、トレーニング中にランダム トーン マッピング拡張を採用して、ネットワークがさまざまな照明入力に対して正しい結果を予測できるようにします。
さらに、オプションの新しい照明融合モジュールを提案します。これは、変分オートエンコーダを使用して複数の画像を融合し、多重露出画像が利用可能な場合の深度推定に最も有利な入力 RGB 画像を取得します。
私たちの方法は、Depth Anything V2 と比較して、非ランバーシアン サーフェスの Booster データセットと Mirror3D データセットのゼロショット テストでそれぞれ 33.39% と 5.21% の精度向上を達成しました。
TRICKY2024 競技テストセットの ToM 領域内でデルタ 1.05 で 90.75 という最先端のパフォーマンスは、私たちのアプローチの有効性を示しています。

要約(オリジナル)

In the field of monocular depth estimation (MDE), many models with excellent zero-shot performance in general scenes emerge recently. However, these methods often fail in predicting non-Lambertian surfaces, such as transparent or mirror (ToM) surfaces, due to the unique reflective properties of these regions. Previous methods utilize externally provided ToM masks and aim to obtain correct depth maps through direct in-painting of RGB images. These methods highly depend on the accuracy of additional input masks, and the use of random colors during in-painting makes them insufficiently robust. We are committed to incrementally enabling the baseline model to directly learn the uniqueness of non-Lambertian surface regions for depth estimation through a well-designed training framework. Therefore, we propose non-Lambertian surface regional guidance, which constrains the predictions of MDE model from the gradient domain to enhance its robustness. Noting the significant impact of lighting on this task, we employ the random tone-mapping augmentation during training to ensure the network can predict correct results for varying lighting inputs. Additionally, we propose an optional novel lighting fusion module, which uses Variational Autoencoders to fuse multiple images and obtain the most advantageous input RGB image for depth estimation when multi-exposure images are available. Our method achieves accuracy improvements of 33.39% and 5.21% in zero-shot testing on the Booster and Mirror3D dataset for non-Lambertian surfaces, respectively, compared to the Depth Anything V2. The state-of-the-art performance of 90.75 in delta1.05 within the ToM regions on the TRICKY2024 competition test set demonstrates the effectiveness of our approach.

arxiv情報

著者 Junrui Zhang,Jiaqi Li,Yachuan Huang,Yiran Wang,Jinghong Zheng,Liao Shen,Zhiguo Cao
発行日 2024-08-12 11:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク