Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

要約

プロンプトは、特定のタスクに対して言語と視覚の基礎モデルの力を解き放つ上で重要な役割を果たします。
初めて、深度基盤モデルにプロンプ​​トを導入し、プロンプト深度エニシングと呼ばれるメトリクス深度推定の新しいパラダイムを作成します。
具体的には、低コストの LiDAR をプロンプトとして使用し、Depth Anything モデルをガイドして正確なメトリック深度出力を実現し、最大 4K 解像度を実現します。
私たちのアプローチは、深度デコーダー内の複数のスケールで LiDAR を統合する簡潔なプロンプト フュージョン設計に重点を置いています。
LiDAR 深度と正確な GT 深度の両方を含む限られたデータセットによって引き起こされるトレーニングの課題に対処するために、合成データ LiDAR シミュレーションと実データの擬似 GT 深度生成を含むスケーラブルなデータ パイプラインを提案します。
私たちのアプローチは、ARKitScenes および ScanNet++ データセットに新たな最先端技術を導入し、3D 再構成や汎用ロボットによる把握などの下流アプリケーションに利益をもたらします。

要約(オリジナル)

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

arxiv情報

著者 Haotong Lin,Sida Peng,Jingxiao Chen,Songyou Peng,Jiaming Sun,Minghuan Liu,Hujun Bao,Jiashi Feng,Xiaowei Zhou,Bingyi Kang
発行日 2024-12-18 16:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク