要約
自己監視された単眼深度推定(SSMDE)は、RGB画像シーケンスから深さを学習し、根真実の深さラベルの必要性を排除することにより、単眼画像の密な深度マップを予測することを目的としています。
このアプローチは、監視された方法と比較してデータの収集を簡素化しますが、ランバートの反射率の仮定に違反し、そのような表面での不正確なトレーニングにつながるため、反射面と闘っています。
この問題に取り組むために、さまざまな視点間のカメラジオメトリに導かれ、ピクセルレベルで反射領域を特定するためにトリプレットマイニングを活用することにより、SSMDEの新しいトレーニング戦略を提案します。
提案された反射を受けたトリプレットマイニング損失は、特に非反射領域で深さの精度を維持しながら、局所的な反射領域の不適切な測光誤差の最小化を罰します。
また、学生モデルが反射領域や非反射領域からピクセルレベルの知識を選択的に学習できるようにするリフレクションを意識した知識蒸留方法も組み込んでいます。
これにより、エリア全体で堅牢な深さ推定が行われます。
複数のデータセットの評価結果は、この方法が反射面での深さ品質を効果的に向上させ、最先端のSSMDEベースラインを上回ることを示しています。
要約(オリジナル)
Self-supervised monocular depth estimation (SSMDE) aims to predict the dense depth map of a monocular image, by learning depth from RGB image sequences, eliminating the need for ground-truth depth labels. Although this approach simplifies data acquisition compared to supervised methods, it struggles with reflective surfaces, as they violate the assumptions of Lambertian reflectance, leading to inaccurate training on such surfaces. To tackle this problem, we propose a novel training strategy for an SSMDE by leveraging triplet mining to pinpoint reflective regions at the pixel level, guided by the camera geometry between different viewpoints. The proposed reflection-aware triplet mining loss specifically penalizes the inappropriate photometric error minimization on the localized reflective regions while preserving depth accuracy in non-reflective areas. We also incorporate a reflection-aware knowledge distillation method that enables a student model to selectively learn the pixel-level knowledge from reflective and non-reflective regions. This results in robust depth estimation across areas. Evaluation results on multiple datasets demonstrate that our method effectively enhances depth quality on reflective surfaces and outperforms state-of-the-art SSMDE baselines.
arxiv情報
著者 | Wonhyeok Choi,Kyumin Hwang,Wei Peng,Minwoo Choi,Sunghoon Im |
発行日 | 2025-02-20 13:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google