Depth Prompting for Sensor-Agnostic Depth Estimation

要約

高密度深度マップは、視覚認識タスクの重要な要素として使用されてきました。
深度の品質を向上させるために、最適化ベースの方法から学習ベースの方法まで、多大な努力が行われてきました。
長年にわたる目覚ましい進歩にもかかわらず、密度、センシングパターン、スキャン範囲などの系統的な測定バイアスにより、現実世界への適用性は限られています。
バイアスにより、これらの方法の一般化が困難になることはよく知られています。
最近の手法で採用されている入力モダリティ (画像や深度など) の共同表現の学習はバイアスの影響を受けやすいことが観察されています。
この研究では、これらのモダリティを解きほぐし、迅速なエンジニアリングでバイアスを軽減します。
このために、センサータイプまたはシーン構成のいずれかからの新しい深度分布に従って望ましい特徴表現を可能にする新しい深度プロンプトモジュールを設計します。
深度プロンプトは、単眼深度推定の基礎モデルに埋め込むことができます。
この埋め込みプロセスを通じて、私たちの方法は、事前トレーニングされたモデルが深度スキャン範囲の制約から解放され、絶対スケールの深度マップを提供するのに役立ちます。
私たちは広範な評価を通じて私たちの方法の有効性を実証します。
ソース コードは https://github.com/JinhwiPark/DepthPrompting で公開されています。

要約(オリジナル)

Dense depth maps have been used as a key element of visual perception tasks. There have been tremendous efforts to enhance the depth quality, ranging from optimization-based to learning-based methods. Despite the remarkable progress for a long time, their applicability in the real world is limited due to systematic measurement biases such as density, sensing pattern, and scan range. It is well-known that the biases make it difficult for these methods to achieve their generalization. We observe that learning a joint representation for input modalities (e.g., images and depth), which most recent methods adopt, is sensitive to the biases. In this work, we disentangle those modalities to mitigate the biases with prompt engineering. For this, we design a novel depth prompt module to allow the desirable feature representation according to new depth distributions from either sensor types or scene configurations. Our depth prompt can be embedded into foundation models for monocular depth estimation. Through this embedding process, our method helps the pretrained model to be free from restraint of depth scan range and to provide absolute scale depth maps. We demonstrate the effectiveness of our method through extensive evaluations. Source code is publicly available at https://github.com/JinhwiPark/DepthPrompting .

arxiv情報

著者 Jin-Hwi Park,Chanhwi Jeong,Junoh Lee,Hae-Gon Jeon
発行日 2024-05-20 08:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク