Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

要約

プロンプトは、特定のタスクの言語およびビジョンファンデーションモデルの力を解き放つ上で重要な役割を果たします。
初めて、深さの基礎モデルへの促しを導入し、迅速な深さと呼ばれるメトリック深度推定の新しいパラダイムを作成します。
具体的には、低コストのLIDARをプロンプトとして使用して、最大4Kの解像度を達成し、正確なメートルート深度出力のモデルを深くガイドします。
私たちのアプローチは、深さデコーダー内の複数のスケールでLidarを統合する簡潔なプロンプトフュージョン設計に集中しています。
LIDARの深さと正確なGT深さの両方を含む限られたデータセットによってもたらされるトレーニングの課題に対処するために、合成データLIDARシミュレーションと実際のデータ疑似GT深度生成を含むスケーラブルなデータパイプラインを提案します。
私たちのアプローチは、ArkitscenesとScannet ++データセットに新しい最先端を設定し、3D再構成や一般化されたロボット把握など、ダウンストリームアプリケーションに利益をもたらします。

要約(オリジナル)

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

arxiv情報

著者 Haotong Lin,Sida Peng,Jingxiao Chen,Songyou Peng,Jiaming Sun,Minghuan Liu,Hujun Bao,Jiashi Feng,Xiaowei Zhou,Bingyi Kang
発行日 2025-04-22 14:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク