Foundation Models Meet Low-Cost Sensors: Test-Time Adaptation for Rescaling Disparity for Zero-Shot Metric Depth Estimation

要約

Depth Anything などの単眼深度推定の基礎モデルの最近の開発により、ゼロショット単眼深度推定への道が開かれました。
アフィン不変の視差マップが返されるため、メトリックの深さを回復するための推奨される手法は、モデルを微調整することです。
ただし、この段階の実行にはトレーニングだけでなくデータセットの作成にもコストがかかります。
これには、テスト時に使用されるカメラによってキャプチャされた画像と、対応するグラウンド トゥルースが含まれている必要があります。
さらに、微調整により、元のモデルの汎化能力が低下する可能性もあります。
その代わりに、この論文では、低コストのセンサーや、低解像度の LiDAR、ステレオ カメラ、IMU によってポーズが与えられるストラクチャ フロム モーションなどの技術によって提供される 3D ポイントを使用して、Depth Anything 予測を再スケーリングする新しい方法を提案します。
したがって、このアプローチは微調整を回避し、元の深度推定モデルの一般化能力を維持しながら、センサーまたは深度モデルのノイズに対して堅牢です。
私たちの実験では、他のメトリック深度推定方法と比較した改善と、微調整されたアプローチと比較した競合結果が強調されています。
コードは https://gitlab.ensta.fr/ssh/monocular- Depth-rescaling で入手できます。

要約(オリジナル)

The recent development of foundation models for monocular depth estimation such as Depth Anything paved the way to zero-shot monocular depth estimation. Since it returns an affine-invariant disparity map, the favored technique to recover the metric depth consists in fine-tuning the model. However, this stage is costly to perform because of the training but also due to the creation of the dataset. It must contain images captured by the camera that will be used at test time and the corresponding ground truth. Moreover, the fine-tuning may also degrade the generalizing capacity of the original model. Instead, we propose in this paper a new method to rescale Depth Anything predictions using 3D points provided by low-cost sensors or techniques such as low-resolution LiDAR, stereo camera, structure-from-motion where poses are given by an IMU. Thus, this approach avoids fine-tuning and preserves the generalizing power of the original depth estimation model while being robust to the noise of the sensor or of the depth model. Our experiments highlight improvements relative to other metric depth estimation methods and competitive results compared to fine-tuned approaches. Code available at https://gitlab.ensta.fr/ssh/monocular-depth-rescaling.

arxiv情報

著者 Rémi Marsal,Alexandre Chapoutot,Philippe Xu,David Filliat
発行日 2024-12-18 17:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク